用Python获取数据
抓取
urllib内建模块
-urllib.request
Requests第三方库(中小型爬虫开发)
Requests官网
基本方法requests.get() #请求获取指定URL位置的资源,对应HTTP协议的GET方法
帮大家把简单的使用方法复制过来
>>> r = requests.get('https://api.github.com/user', auth=('user', 'pass'))
>>> r.status_code
200
>>> r.headers['content-type']
'application/json; charset=utf8'
>>> r.encoding
'utf-8'
>>> r.text #自动推测文本编码并进行解码
u'{"type":"User"...'
>>> r.json()#内置json解码器
{u'private_gists': 419, u'total_private_repos': 77, ...}
Scrapy框架(大型的开源爬虫框架)
解析
BeautifulSoup库
BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库
BeautifulSoup官方网站
re模块
re正则表达式模块进行各类正则表达式处理
参考网站
第三方API进行抓取和解析