python爬虫
爬虫已经存在很长时间了,是学习编程入门非常好的练手项目,因为用python做爬虫简单靠谱。而且是最近火的不能再火的python在AI的应用异军突起,所以选择用python学习爬虫绝对意义非凡。
爬虫,顾名思义就是一只在互联网上爬来爬去的虫,并且爬过的地方都会将此处的信息记录下来。在信息爆炸的时代,能有效获取数据或是其他信息,是未来世界有利的生存武器。数据分析在金融和AI方面的应用已经不可言喻了。
而做好数据分析首先要有能做到有效的数据获取,数据存储,数据提取,数据分析,数据挖掘,数据可视化等等很多大的点。
基本框架:
知识储备:
主要需要了解一些知识点如下:
1:HTTP 协议
2:前端技术(JavaScript和HTML)
3:正则表达式和Xpath(文字匹配利器和网页保存路径语言XML)
介绍下一个简单的爬虫框架如下:
py2.7和3.6通用。
import requests
url = "https://www.amazon.cn/gp/product/B01M8L5Z3Y"
#url = "http://item.jd.com/2967929.html"
try:
kv ={‘User-Agent’:‘Mozilla/5.0’}
r = requests.get(url,headers = kv)
r.raise_for_status()
r.encoding = r.apparent_encoding
print(r.text[100:200])
except:
print("失败")