python爬虫
文章平均质量分 56
_朝闻道_
心不唤物,物不至
展开
-
python爬虫笔记(三):Cookie
Cookie的获取保存一、使用CookieCookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)。 有些网站需要登录后才能访问某个页面,因此我们需要模拟登陆的状态来爬取数据。使用Cookie和使用代理IP一样,也需要创建一个自己的opener。在HTTP包中,提供了cookiejar模块,用于提供对Cookie的支持。ht...原创 2018-08-30 16:56:47 · 248 阅读 · 0 评论 -
python爬虫笔记(二):User-Agent和IP
设置User-Agent和IP代理 设置User-Agent作用是隐藏爬虫身份,IP代理则可以避免频繁访问网站资源导致的封禁一、常见的User-AgentOpera Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537....原创 2018-08-30 09:49:02 · 567 阅读 · 0 评论 -
python爬虫笔记(六):模拟用户访问
模拟人类访问网站一、设置Cookie通过页面审查获取基本HTTP请求头信息,User-Agent 等。之前获取 Cookie 通过 HTTP 包里的 CookieJar 来保存,还要构造handler,安装opener什么的比较复杂。这次使用 requests 库,建立一个 session 连接之后,来获取 Cookie。import requestsurl = 'https:...原创 2018-09-01 15:49:29 · 589 阅读 · 0 评论 -
python爬虫实战:requests爬取妹子图片
利用第三方库requests爬取本来要爬帅哥图的,想想还是算了,怕被人怀疑取向,糟糕! 这里的requests.get就代表get请求,跟urlopen不设定data参数差不多 但是requests用起来更加方便,还有很多强大功能有空去研究一下,先占坑from bs4 import BeautifulSoupfrom urllib.request import urlretrieve...原创 2018-09-01 09:59:51 · 6046 阅读 · 0 评论 -
python爬虫笔记(一):urllib
urlopenurl参数path = "https://www.baidu.com/"urllib.request.urlopen(path)req = urllib.request.Request(path)# 构建Request对象print(urllib.request.urlopen(req))urlopen()返回response对象 # &a原创 2018-08-29 18:49:52 · 276 阅读 · 0 评论 -
python爬虫笔记(七):使用Scrapy框架
Scrapy爬虫一、构建项目cmd窗口,cd切换路径scrapy startproject cartoon进入第一级目录,也就是含有配置文件的一级 scrapy genspider example example.comscrapy genspider driver "http://comic.kukudm.com/comiclist/2491/index.htm"...原创 2018-09-04 11:07:16 · 480 阅读 · 0 评论 -
python爬虫实战:selenium下载百度文库文档
利用selenium进行页面操作草草地写了一下,文字是爬下来了,但是还有格式等问题,遇到复杂的文档可能不通用,有点蛋疼。 用安卓模拟登陆,让页面简单一点,电脑网页有点复杂。 之后有空再来改进from selenium import webdriverfrom selenium.webdriver.common.keys import Keysfrom bs4 import Beau...原创 2018-08-31 22:08:01 · 990 阅读 · 0 评论 -
python爬虫实战:获取豆瓣热映电影评分热评
获取豆瓣热映电影评分热评这个是我刚开始学爬虫时候写的,今天翻出来看了下,有空再来改进。可以直接运行。 改进点: 1. 爬取更多页的评论 2. 过滤无效字符 3. jieba分词绘制词云import urllib.requestfrom bs4 import BeautifulSoupimport redouban_path = "https://movie.douban.c...原创 2018-08-31 17:28:59 · 1286 阅读 · 0 评论 -
python爬虫笔记(五):Xpath语法
一、xpath介绍XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。之前我们使用BeautifulSoup库构造soup对象,使用的 lxml 解析器,使用了Xpath语法。但是需要提前安装 lxml 库,官方文档也推荐使用这个解析器,速度快而且错误少。使用scrapy爬虫,genspider之后,scrapy crawl url...原创 2018-08-30 22:50:42 · 459 阅读 · 0 评论 -
python爬虫笔记(四):BeautifulSoup
BeautifulSoup使用 Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库. 它能够通过你喜欢的转换器实现惯用的文档导航, 查找, 修改文档的方式. Beautiful Soup会帮你节省数小时甚至数天的工作时间. 之后会整理一下XPath的用法,在使用scrapy框架进行爬虫时,需要用到。 Xpath 是一门在 XML 文档中查找信...原创 2018-08-30 20:31:00 · 832 阅读 · 0 评论