爬虫
爱coding的白兰客
这个作者很懒,什么都没留下…
展开
-
爬虫 for 统计局数据
环境:python3.6 + jupyter notebook使用的库:1.requests 一个HTTP客户端库,用来获取web网页,用法详见requests文档2.BeautifulSoup可以从HTML或XML文件中提取数据,用法详见:beautifulsoup官方文档具体实现1.获取root页面的HTML代码原页面:import requests...原创 2019-05-01 10:11:59 · 1462 阅读 · 0 评论 -
python 爬虫基础
HTTP 请求库urllib 或 requestsurllib.request请求页面(requests是第三方的,比urllib慢一点) html = urllib.request.urlopen(url) data = html.read() html.geturl() 获取地址,没想到应用场景 html.getcode() 获取状态码,200说明是正常访问 下载...原创 2019-08-28 09:25:00 · 147 阅读 · 0 评论 -
爬取 空气质量数据
某时刻全国所有城市AQ使用urllib进行http请求,bs解析为tree结构import urllib.requestfrom bs4 import BeautifulSoupurl='http://www.pm25.in/rank'#空气rankhtml=urllib.request.urlopen(url)data=html.read()#执行完html就变成空了,所以我在...原创 2019-08-28 22:06:48 · 1607 阅读 · 1 评论 -
爬虫·悠哉网旅游数据,并保存至mysql数据库
导包import requestsimport urllib from bs4 import BeautifulSoupimport pymysqlimport openpyxlimport os获取浏览器headerheader = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.3...原创 2019-08-30 10:42:19 · 612 阅读 · 0 评论