爬虫
guimaster
为开源与互助贡献自己的一小份力量
展开
-
简单粗暴彻底解决selenium+chromedriver无法定位各种元素的方法
解决各种webdriver.find_element定位不准的问题原创 2017-02-24 19:54:50 · 30918 阅读 · 5 评论 -
BS4 keep on!
必须学会树状结构的解析!对于selenuim也非常重要!原创 2017-03-19 22:51:23 · 322 阅读 · 0 评论 -
爬取数据解决方案- 每页打开+单个查询
打开一个网页下面的代码+补充+更新原创 2017-03-29 11:48:59 · 794 阅读 · 0 评论 -
爬虫学习 pyspider和scrapy小结 / 与其他工具对比
从火车头了解了翻页与正则表达式带入了爬虫原理、后python的urllib和requests彻底梳理了爬虫过程,之后引入phantomjs chromedriver这些彻底解决了爬虫问题,但是这些太琐碎,而且反爬虫越来越厉害,必须升级爬取武器到专业级别。用python实现了基本爬虫之后,相比火车头工具,再次体验到了代码在灵活度和速度方面的魅力(之前用python用正则表达式处理文本数据速度是e...原创 2018-02-12 16:03:25 · 5333 阅读 · 0 评论 -
pyspider积累
构造url配置:crawl_config = { "headers" : headers, "timeout" : 1000, "cookies" : Cookie "proxy" : 192.168.1.1:8888 }# 示例 crawl_config = { "headers":{...原创 2018-03-10 15:28:45 · 395 阅读 · 0 评论 -
scrapy积累
构造url :和pyspider一样方便,具体实现用parse一层一层解析url 到最终一层之后爬取# 使用带数字的url 用列表表达式start_urls = ['http://www... /p' + str(x) for x in range(3, 6, 1)] # 使用翻页,基本上属于解析范畴,因为要找到翻页的按钮 next = response.css('.n...原创 2018-03-10 15:46:30 · 234 阅读 · 0 评论 -
sqlite3 unicode转中文
用pyspider爬数据,默认的sqlite3数据库内都是中文显示,可是安装了datagrip之后发现全部变成unicode码了。于是将数据导出csv,技术朋友再次出手用python搞定了大家都知道中文编码坑比较多,这个记录下来#转文件还是用代码最靠谱import pandas as pdimport jsonobj = pd.read_csv('filepath/1.csv')...原创 2018-03-13 08:38:48 · 1393 阅读 · 0 评论 -
路漫漫其修远矣 - 关于内容解析 与 存储
用scrapy框架后,很多访问问题解决了,css解析也非常方便,于是要将之前关注的一个网站爬下来放到mysql里面,然后用tableau接上,这样就可以长期自动监测了。但过程非常坎坷,一直到现在也没有解决问题,但经过探索,好在发现了问题。问题描述:爬取一个网站,一个页面却多次返回数据,并且无法写入mysql,但是放到json工具读取后发现没问题。于是不知道什么情况,甚至认为mysql的问题。...原创 2018-04-04 12:12:16 · 238 阅读 · 0 评论