Python 爬虫HelloWord
网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。

只要是浏览器能做的事情,原则上,爬虫都能够做。


Robots协议:网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

例如:https://www.taobao.com/robots.txt


通用爬虫 :通常指搜索引擎的爬虫

聚焦爬虫 :针对特定网站的爬虫


动手部分:

1.pip3 intall requests

2.配置pycharm,在interception中install

PS:在网页中查找元素:

右击浏览器,检查--->network--->刷新界面,在检查面板中左上角,点击选择按钮,然后点击网页上诸如图片的元素,从而可以在network中,看到其url,右键复制。


3.coding:

import requests

#获取数据
r= requests.get("https://imgsa.baidu.com/news/q%3D100/sign=b07a74909d8fa0ec79c7600d1696594a/e850352ac65c103881e97861be119313b17e89fa.jpg")

#接收数据
test_content = r.content

#打开一个本地图片(尚未创建)
f = open("test_spider.png","wb")
#把文件保存
f.write(test_content)


r = requests.get("http://www.baidu.com")
test_content = r.content.decode("utf8")
print(test_content)

f.close()





阅读更多
想对作者说点什么? 我来说一句

python新浪微博爬虫

2018年01月24日 111KB 下载

python 爬虫实例宋城路

2017年11月07日 56.24MB 下载

精通python爬虫

2017年12月29日 1.98MB 下载

Python爬虫开发与项目实战

2018年02月18日 50MB 下载

python爬虫批量下载apk文件

2018年04月21日 2KB 下载

爬虫 python 突破

2018年04月11日 1.59MB 下载

没有更多推荐了,返回首页

不良信息举报

Python 爬虫HelloWord

最多只允许输入30个字

加入CSDN,享受更精准的内容推荐,与500万程序员共同成长!
关闭
关闭