python爬虫
骑猪的刀疤
111
展开
-
python爬虫-AJAX数据爬取和HTTPS访问笔记
https://movie.douban.com/j/search_subjects?type=movie&tag=热门&page_limit=10&page_start=0 对需要爬取的连接进行分析,获得以下需要URL编码的标签 type=movie电影标签 tag=热门电影下的热门板块 page_limil=10可以获取不同数量的信息 page_start=0开始位置 from urllib.parse import urlencode from urllib.request原创 2020-06-20 19:38:40 · 181 阅读 · 0 评论 -
python爬虫 - url编码和post请求 - 笔记
urllib.parse模块 parse.urlencode() 可以对k-v字典数据进行编码,对url进行编码可以让网站方便读取我们想要获取的信息,以免产生歧义。 from urllib.parse import unquote, urlencode data = { "name": "Tom", "country": "美国", "age": 23 } # 编码 print(urlencode(data)) # name=Tom&country=%E7%BE%8E%E原创 2020-06-20 14:01:09 · 568 阅读 · 0 评论 -
爬虫-get方法-笔记
爬虫练习 Robots协议 指定一个 robots.txt 协议,告诉爬虫引擎什么可以爬取 例如: https://mp.csdn.net/robots.txt User-agent: * Disallow: / 不允许任何爬虫爬取 urllib包 urllib.request 用于打开和读写url urllib.error 包含了由 urllib.request 引起的异常 urllib.parse 用于解析url urllib.robotparser 用于分析robots.txt文件 urlopen u原创 2020-06-19 23:18:00 · 410 阅读 · 0 评论