爬虫学习
我就是这样的自己
这个作者很懒,什么都没留下…
展开
-
用爬虫获取新冠疫情历史数据
推一下自己搭的博客:可以访问这个 也可以访问这个,不过也好长时间没有更新了。之前开源的新冠疫情历史数据见github仓库,有好多人问我这些数据是怎么获取的,因为最近一个月一直在忙创新实训的事情,所以也一直没有时间把博客写出来,下面我来讲一下我是如何获取到这些数据的。数据是使用python爬虫从全球新冠病毒最新实时疫情地图_丁香园爬取到的,在此非常感谢丁香园!第一阶段疫情数据发布平台有每日头条、腾讯网、丁香医生、国家卫健委网站等,经过数据准确性、有无历史数据、数据发布时间、数据是否全面等考量,最终选定原创 2020-07-03 17:21:23 · 4893 阅读 · 0 评论 -
新冠疫情历史数据(COVID-19-Data)
希望搜集的数据可以帮助一些人吧!项目地址:COVID-19-Data项目说明:本仓库不定期提供新型冠状病毒(COVID-19)疫情历史数据,数据来自全球新冠病毒最新实时疫情地图_丁香园,非常感谢!提供csv格式的数据,有:china_provincedata.csv 中国各省、直辖市、自治区、特别行政区的疫情数据countrydata.csv 目前包含全球214个国家地区及钻石珍珠号邮轮的疫情数据后期会追加所写的python爬虫程序。...原创 2020-05-14 21:12:52 · 24347 阅读 · 18 评论 -
爬虫学习——Scrapy框架学习(五)(股票数据Scrapy爬虫实例及其爬取速度优化)
“股票数据Scrapy爬虫”实例介绍功能描述:技术路线:scrapy目标:获取上交所和深交所所有股票的名称和交易信息输出:保存到文件中数据网站的确定:获取股票列表: 东方财富网:http://quote.eastmoney.com/stock_list.html获取个股信息: 百度股票:https://gupiao.baidu.com/stock/...原创 2019-08-10 11:33:41 · 631 阅读 · 0 评论 -
爬虫学习——Scrapy框架学习(四)
接之前的博客内容Scrapy爬虫的基本使用步骤:1、创建一个工程和Spider模板;2、编写Spider;3、编写Item Pipeline;4、优化配置策略Scrapy爬虫的数据类型:1、Reqeust类(向网络中提交请求的内容)class scrapy.http.Request()Request对象表示一个HTTP请求;由Spider生成,由Downlo...原创 2019-08-10 10:19:58 · 133 阅读 · 0 评论 -
爬虫学习——Scrapy框架学习(三)
接前面博客Scrapy爬虫的第一个实例演示HTML页面地址:http://python123.io/ws/demo.html文件名称:demo.html产生步骤:1、建立一个Scrapy爬虫工程选取一个目录,D:\pythoncode,在这个目录中执行建立爬虫工程的命令工程生成了一个目录:下面逐一介绍这些文件和子目录的作用:生成的工程目录:p...原创 2019-08-09 21:32:34 · 338 阅读 · 0 评论 -
爬虫学习——Scrapy框架学习(二)
接上一篇三、requests库和Scrapy库的比较相同点:1、两者都可以进行页面请求和爬取,python爬虫的两个重要技术路线2、两者可用性都好,文档丰富,入门简单3、两者都没有处理js、提交表单、应对验证码等功能(可扩展)不同点:requests Scrapy页面级爬虫 网站级爬虫(批量)功能...原创 2019-08-09 20:16:48 · 180 阅读 · 0 评论 -
爬虫学习——Scrapy框架学习(一)
根据北理工网络公开课《Python网络爬虫与信息提取》整理课程链接:http://open.163.com/movie/2019/5/3/4/MEEMCM1NP_MEF8BVC34.html一、Scrapy爬虫框架介绍功能强大的爬虫框架安装:pip install scrapy可用命令行执行scrapy -h来测试安装的效果scrapy 不是一个函数功能库,而是一个爬虫框架爬虫框架...原创 2019-08-09 11:29:36 · 209 阅读 · 0 评论 -
爬虫学习——"股票数据定向爬虫"(技术路线requests-bs4-re)(来源于北理工Python网络爬虫与信息提取网络公开课)
股票数据定向爬虫来自北理工网络公开课——Python网络爬虫与信息提取课程链接http://open.163.com/movie/2019/5/I/O/MEEMCM1NP_MEF0L2JIO.html功能描述:目标:获取上交所和深交所所有股票的名称和交易信息输出:保存到文件中技术方案:requests-bs4-re候选网站:1、新浪股票:http://finance.sin...原创 2019-08-08 10:13:46 · 1246 阅读 · 2 评论 -
爬虫学习——正则表达式与python的re库使用(一)
正则表达式总结自北理工网络公开课《Python网络爬虫与信息提取》http://open.163.com/movie/2019/5/8/I/MEEMCM1NP_MEEU4DG8I.html第二篇总结见https://blog.csdn.net/weixin_42412973/article/details/98662359一、正则表达式的概念用来简洁表达一组字符串的表达式例如:'...原创 2019-08-05 10:50:57 · 555 阅读 · 0 评论 -
爬虫学习——"中国大学最好排名"(技术路线:requests库和bs4)(来源于北理工Python网络爬虫与信息提取网络公开课)
"中国大学排名"定向爬虫示例课程地址:http://open.163.com/movie/2019/5/G/6/MEEMCM1NP_MEEU3UFG6.html#功能描述:#输入:大学排名URL链接#输出:大学排名信息的屏幕输出(排名,大学名称,总分)#使用技术:requests库和bs4#定向爬虫:仅对输入URL进行爬取,不扩展爬取#是否可以实现:查看网页源代码判断是否是静态页面...原创 2019-08-04 21:20:18 · 501 阅读 · 0 评论