爬虫
、那年雪天
这个作者很懒,什么都没留下…
展开
-
Python实战---使用Scrapy+ Selenium+ChromeDriver爬取简书所有文章
使用Scrapy+ Selenium+ChromeDriver爬取简书所有文章创建项目scrapy startproject jianshu创建爬虫scrapy genspider -t crawl jianshu “jianshu.com”运行爬虫scrapy crawl jianshu或者创建start.py文件from scrapy import cmdlinecmdline.execute('scrapy crawl jianshu'.split())然后使用PyChar原创 2020-07-08 21:03:25 · 748 阅读 · 0 评论 -
Python实战---使用多线程爬取斗图啦表情包
使用多线程爬取斗图啦表情包目标爬取前一百页的表情包。话不多说,直接上爬取结果:只是作为练习,所以中途就把程序关掉了,可以看出来多线程爬取是真的快。思路1、先写出不使用多线程爬取页面的代码2、使用多线程的生产者和消费者模式来爬取。实现代码'''@Description: 爬取斗图啦的表情包@Author: sikaozhifu@Date: 2020-06-11 14:20:53@LastEditTime: 2020-06-11 15:36:21@LastEditors: Plea原创 2020-06-11 15:50:08 · 467 阅读 · 1 评论 -
Python实战---正则表达式
文章目录正则表达式1、匹配某个字符串2、点(.)匹配任意的字符:3、\d匹配任意的数字4、\D匹配任意的非数字5、\s匹配的是空白字符(包括:\n,\t,\r和空格)6、\w匹配的是a-z和A-Z以及数字和下划线7、\W匹配的是和\w相反的8、[]组合的方式9、*可以匹配0或者任意多个字符10、+可以匹配1个或者多个字符11、?匹配的字符可以出现一次或者不出现(0或者1)12、{m}匹配m个字符13、{m,n}匹配m-n个字符(在这中间的字符都可以匹配到)14、^(脱字号)表示以...开始15、$:表示以.原创 2020-06-09 16:36:16 · 400 阅读 · 0 评论 -
Python实战---使用正则表达式爬取古诗文网
使用正则表达式爬取古诗文网爬取目标具体字段为:title 标题dynasty 朝代author 作者content 内容tag 标签实现代码'''@Description: 使用正则表达式爬取古诗词网@Author: sikaozhifu@Date: 2020-06-09 14:55:44@LastEditTime: 2020-06-09 15:55:47@LastEditors: Please set LastEditors'''import requestsimp原创 2020-06-09 16:04:08 · 585 阅读 · 0 评论 -
Python实战---使用BeautifulSoup和pyecharts爬取中国天气网并展示
使用BeautifulSoup和pyecharts爬取中国天气网并展示1、使用requests进行页面抓取2、使用BeautifulSoup进行页面分析3、使用pyecharts进行数据展示(柱状图)爬取的页面为:爬取的数据字段:城市 city最低温度 min_temperature实现代码:'''@Description: 爬取中国天气网@Author: sikaozhifu@Date: 2020-06-08 13:53:15@LastEditTime: 2020-06-08原创 2020-06-08 16:21:31 · 629 阅读 · 0 评论 -
Python实战---使用requests库和Xpath语法爬取豆瓣电影Top250
使用requests库和Xpath语法爬取豆瓣电影Top250即爬取下面的页面:下面为实现代码:'''@Description: 爬取豆瓣电影 Top 250@Author: sikaozhifu@Date: 2020-06-07 15:16:23@LastEditTime: 2020-06-07 17:04:13@LastEditors: Please set LastEditors'''from lxml import etreeimport requestsheaders =原创 2020-06-07 17:10:33 · 727 阅读 · 0 评论 -
Python实战---使用urllib实现爬取拉勾网
使用urllib爬取拉勾网的java工程师职位信息拉勾网的反爬机制做的不错,一般网站加上User-Agent和Referer请求头即可获取信息,但是拉勾网需要设置Cookie信息,而且加入了时间戳。。如果不设置Cookie,就会出现以下信息:{"status":false,"msg":"您操作太频繁,请稍后再访问","clientIp":"124.167.153.75","state":2402}而且拉勾网的网页信息是通过另一个请求获取的信息。所以需要通过第一个请求获取Cookie,然后把Coo原创 2020-06-06 09:40:56 · 348 阅读 · 0 评论