爬虫
文章平均质量分 70
ugly girl
这个作者很懒,什么都没留下…
展开
-
Google Trends爬虫
最近因科研原因,需要爬取google trends中有关Bitcoin的数据,于是开启了为期三天的艰难探索。过程虽然艰难,但结果是好的。下面将整个过程的收获记录如下。当然,这一切的前提是先连接上一台位于国外的远程服务器,所以假设看到这篇文章的小伙伴都已经连接上了远程服务器。原创 2021-02-23 16:29:53 · 2459 阅读 · 2 评论 -
python正则表达式中match的使用
有关正则表达式的常用符号可以参考https://blog.csdn.net/stickto11_/article/details/105808949match()向它传入要匹配的字符串以及正则表达式,就可以检测这个正则表达式是否匹配字符串。最简单的用法如下:import recontent="Hello 1234567 World_This is a Regex Demo"resul...原创 2020-04-29 23:15:13 · 1127 阅读 · 0 评论 -
python爬虫中常用的正则表达式
之所以叫正则表达式,是因为它们可以识别正则字符串(regular string)而什么又是正则字符串呢?其实就是任意可以用一系列线性规则构成的字符串,就像:(1) 字母“a”至少出现一次;(2) 后面跟着字母“b”重复 5 次;(3) 后面再跟字母“c”重复任意偶数次;(4) 最后一位是字母“d”,也可以没有。在python爬虫中会经常用到正则表达式,所以掌握一些常用的正则表达式十分重要...原创 2020-04-28 11:14:40 · 493 阅读 · 0 评论 -
python爬虫HTTPError 和 AttributeError错误及改进措施
爬虫的时候很容易发生错误,为了避免因为某几个网页错误影响所有网页的爬取,在代码中加入错误检测机制是很有必要的HTTPErrorhtml = urlopen("http://www.pythonscraping.com/pages/page1.html")运行以上代码主要会发生两种异常:网页在服务器上不存在(或者获取页面的时候出现错误)服务器不存在这两种错误,urlopen都会抛出H...原创 2020-04-27 09:58:21 · 1794 阅读 · 0 评论 -
python爬虫urllib和BeautifulSoup包介绍
urlliburllib 是 Python 的标准库(就是说你不用额外安装就可以运行这个例子),包含了从网络请求数据,处理 cookie,甚至改变像请求头和用户代理这些元数据的函数。from urllib.request import urlopenhtml=urlopen("http://pythonscraping.com/pages/page1.html")print(html.r...原创 2020-04-27 09:38:28 · 486 阅读 · 0 评论 -
python3网络爬虫之先打一个牢牢的地基(一):关于网页的几个基本概念的理解
博主在自学爬虫的道路上摸索了好久,看过无数篇大佬的博客,但看过之后只是知道了什么样的第三方包可以通过怎样的语法实现什么样的功能,始终无法按照自己的意志独立写出一套爬虫程序来,感觉自己一直在门外徘徊。所以,我决定重新做人,从最基础的原理部分开始,打牢地基再建高楼!说明语言:python3操作系统:windows/mac os本博客相当于学习《Python3网络爬虫开发实战教程》(崔庆才)的...原创 2019-07-09 11:28:32 · 213 阅读 · 0 评论 -
python3网络爬虫之先打一个牢牢的地基(二):Google开发者工具的使用——Network
相信很多同学对Google的开发者工具这个东西早有耳闻,也或多或少接触过、使用过。之前在做web开发的时候也会用这个进行调试,但只是关注那几个地方,对其他功能糊里糊涂。最近下决心决定好好学爬虫的基础原理,于是对开发者工具好好进行了一番研究。这篇博客将为你揭开开发者工具对神秘面纱!原创 2019-07-10 09:27:14 · 306 阅读 · 0 评论 -
MacOS splash的安装(超级详细版)
Splash是一个JavaScript渲染服务,是一个带有HTTP API的轻量级浏览器,同时它对接了Python中的Twisted和QT库。利用它,我们可以实现动态渲染页面的抓取。本篇博客详细介绍了如何在MacOS系统上安装Splash。原创 2019-07-11 19:03:12 · 851 阅读 · 0 评论