![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
甜果果2333
这个作者很懒,什么都没留下…
展开
-
用homebrew安装radis之后连接显示Could not connect to Redis at 127.0.0.1:6379: Connection refused
Could not connect to Redis at 127.0.0.1:6379: Connection refused 安装完了之后使用命令brew services start redis然后再考虑配置文件的问题原文:https://blog.csdn.net/liu19910816/article/details/80614323 ...转载 2019-02-07 13:39:34 · 174 阅读 · 0 评论 -
《PYTHON3网络爬虫开发实践》——第五章 数据存储
第五章 数据存储用解析器解析出数据之后,接下来就是存储数据了。保存的形式可以多种多样,最简单的形式是直接保存为文本文件,如TXT、JSON、CSV等。另外,还可以保存到数据库中,如关系型数据库MySQL,非关系型数据库MongoDB、Redis 等。爬虫——TXT文本存储import requestsfrom pyquery import PyQuery as pqurl = ...原创 2019-02-28 15:06:28 · 321 阅读 · 0 评论 -
《PYTHON3网络爬虫开发实践》——第四章 解析库的使用
第四章 解析库的使用4.1 XPath对于网页的节点来说,它可以定义id、 class或其他属性。而且节点之间还有层次关系,在网页中可以通过XPath或CSS选择器来定位一一个或多个节点。那么,在页面解析时,利用XPath或CSS选择器来提取某个节点,然后再调用相应方法获取它的正文内容或者属性,就可以提取我们想要的任意信息了。XPath提供了超过100个内建函数,用于字符串、数值、时...原创 2019-02-28 15:04:16 · 476 阅读 · 0 评论 -
《PYTHON3网络爬虫开发实践》——第三章 基本库的使用
第三章 基本库的使用urllib库,有了它,我们只需要关心请求的链接是什么,需要传的参数是什么,以及如何设置可选的请求头就好了,不用深入到底层去了解它到底是怎样传输和通信的。有了它,两行代码就可以完成一个请求和响应的处理过程,得到网页内容。urllib是Python内置的HTTP请求库。包含4个模块。requesturlopen()。利用它模仿浏览器的一个请求发起过程,还带有处...原创 2019-02-28 15:01:38 · 698 阅读 · 0 评论 -
《PYTHON3网络爬虫开发实践》——第二章 爬虫基础
第二章 爬虫基础URI:Uniform Resource Identifier,即统一资源标志符。URL:Uniform Resource Locator,即统一资源定位符。URN:Uniform Resource Name,即统一资源名称。超文本:网页的源代码HTML就可以称作超文本。F12检查查看。协议类型:http, https, ftp, sftp, smb等。h...原创 2019-02-28 14:58:47 · 244 阅读 · 0 评论 -
如何通过Chrome查看网站登录 Cookie 信息
方法一1.打开浏览器设置选项,或者直接在浏览器打开 chrome://settings/content,进入内容设置选项,可以看到cookie基本设置。如图:2.点击所有Cookie和网站数据即可查看浏览过的网站cookie信息。 方法二1.F12或者单击鼠标右键,选择审查元素。2.点击Network–>DOC–>Headers。此时点击Headers应该...转载 2019-02-17 14:33:03 · 9338 阅读 · 0 评论 -
抓取猫眼电影排行T100
import requestsimport jsonfrom requests.exceptions import RequestExceptionimport reimport time# 抓取首页def get_one_page(url): try: headers = { 'User-Agent': 'Mozilla/5.0(Macin...原创 2019-02-22 11:18:55 · 426 阅读 · 0 评论 -
利用正则表达式和Request库爬取知乎发现页面的标题部分
import requestsimport re headers = { 'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36'}r = requests.get...原创 2019-02-22 10:52:37 · 752 阅读 · 0 评论 -
爬虫知乎上“发现”页面的“热门话题”部分,将其问题和答案统一保存成文本形式
import requestsfrom pyquery import PyQuery as pqurl = 'https://www.zhihu.com/explore'headers = { 'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like ...原创 2019-02-22 10:49:01 · 842 阅读 · 0 评论 -
爬取GitHub上所有链接的PDF(占坑)
目标:爬取这个网站的所有PDF。https://github.com/THUNLP-MT/MT-Reading-List#syntax_based_models 下载一个网站的所有PDF:#file-name: pdf_download.py__author__ = 'rxread'import requestsfrom bs4 import BeautifulSoup...原创 2019-02-21 15:30:24 · 1464 阅读 · 0 评论 -
Mac上MySQL报错:ERROR 2002 (HY000): Can't connect to local MySQL server through socket '/tmp/mysql.sock'
解决办法:mysql.server start原文:https://segmentfault.com/q/1010000000094608转载 2019-02-07 13:48:16 · 211 阅读 · 0 评论 -
《PYTHON3网络爬虫开发实践》——第六章 Ajax数据爬取
第六章 Ajax数据爬取有时候我们在用requests抓取页面的时候,得到的结果可能和在浏览器中看到的不一样:这是因为requests 获取的都是原始的HTML文档,而浏览器中的页面则是经过JavaScript处理数据后生成的结果,这些数据的来源有多种,可能是通过Ajax加载的,可能是包含在HTML文档中的,也可能是经过JavaScript和特定算法计算后生成的。对于第一种情况,数据加载是...原创 2019-02-28 15:07:32 · 382 阅读 · 0 评论