爬虫
文章平均质量分 56
蛋师傅
改变一个人究竟有多难
展开
-
获取空气质量站点数据 城市数据 日数据 时数据
空气质量 pm2.5 pm10 AQI原创 2022-05-01 18:30:03 · 2126 阅读 · 8 评论 -
获取pm2.5空气质量AQI历史数据
网站:https://www.aqistudy.cn/historydata/前言: pm2.5的数据源比较多,但是历史数据比较少,很多网站不是很全,如图,这个网站的数据在同类网站中是算比较全面的了,界面也很简约清晰。一开始我爬取这个网站的时候看到网页结构很简单以为简单的构造请求就可以爬取数据了。没想到打开开发者工具后,发现其日数据是通过js加密解密加载到页...原创 2020-02-19 09:18:06 · 10357 阅读 · 8 评论 -
爬取淘宝买家秀,sign值的生成
最近在做关于淘宝买家秀的爬虫,其中无非就是关于sign的生成相关的几个点。这里我来介绍下自己总结的几个点。1.数据如图。淘宝传下来的数据存在js文件中2.参数appKey: 12574478t: 1560094920983sign: 9fd51773ab6c80205f4a0c2f97ca14c6api: mtop.taobao.social.feed.aggre...原创 2019-06-10 00:40:35 · 10235 阅读 · 21 评论 -
利用selenium 爬取网页数据
有些网站的数据是加密过的,不能直接通过请求的方式获取。于是我们可以利用脚本测试工具selenium来控制浏览器从而爬取数据。安装:chrome:地址栏输入chrome://settings/help查看浏览器版本信息:去:http://chromedriver.storage.googleapis.com/index.html下载相对应的驱动然后放入浏览器的安装目录:...原创 2019-06-06 23:33:47 · 5246 阅读 · 0 评论 -
python爬虫中 lxml etree的相关使用
import requestsfrom lxml import etreeurl = 'https://dblp.org/pers/hd/p/Petersen:Karin'html = requests.get(url)html = etree.HTML(html.text) #初始化生成一个XPath解析对象items = html.xpath('//div[contains(@c...原创 2019-04-11 18:42:31 · 3106 阅读 · 0 评论 -
python 打开xls文件写数据
因为在写爬虫的时候要经常用到写Excel文件,于是总结一下:rb = xlrd.open_workbook('test.xls', formatting_info=True)wb = xl_copy(rb)sheet = wb.add_sheet('test')sheet.write(i, 0, 'row1Data')#i行0列sheet.write(i, 1, 'row2Data...原创 2019-03-31 10:21:11 · 1353 阅读 · 0 评论 -
python 爬虫 中乱码问题0xb5 和b'\x1f\x8b\x08
在爬取网页时经常碰到乱码问题,其中:b'\x1f\x8b\x08开头:import gzipret = gzip.decompress(res).decode("utf-8")另外一位博主的解决:import urllib.requestfrom io import BytesIOimport gzipresponse = urllib.request.urlopen...原创 2019-03-31 09:57:28 · 6729 阅读 · 1 评论 -
KFC门店信息获取 爬虫实战
最近在帮客户做东西时需要用到kfc的门店信息查询数据,在浏览了一圈博客之后,貌似大家都是采用selenium + PhantomJS 这种方式抓取kfc的ajax动态网页,其实在分析了一波该网站的请求之后,相对来说还是很简单的一个爬虫,该网站甚至没有做浏览器的验证url =http://www.kfc.com.cn/kfccda/storelist/index.aspx如图...原创 2019-06-06 23:35:04 · 3840 阅读 · 0 评论 -
python-flask 完整项目结构搭建
![logo-full](/Users/crack/Desktop/logo-full.pngFlask是一个使用 Python 编写的轻量级 Web 应用框架。其 WSGI 工具箱采用 Werkzeug ,模板引擎则使用 Jinja2 。Flask也被称为 “microframework” ,因为它使用简单的核心,用 extension 增加其他功能此文就已我一个初学者的视角来学习搭建fla...原创 2019-02-21 15:11:21 · 12569 阅读 · 0 评论