爬虫
文章平均质量分 86
张峰π_π
这个作者很懒,什么都没留下…
展开
-
学Python爬虫,我推荐《python3网络爬虫开发实战(第二版)》
对于崔大的这本《python3网络爬虫开发实战(第二版)》,其实还得从大一下学期的时候参加老师的课题说起,当时老师的课题需要采集一些旅游网站的评论数据,对于当时的我一筹莫展。然后通过请教老师和查询资料了解到爬虫这个东西,当时刚好课程在学习Python,然后碰巧中用度娘以及知乎这些工具搜索发现了python网络爬虫开发,对于当时基础很差的我,然后就考虑买一本厚一点的基础的爬虫书籍,然后结合豆瓣知乎的评价就冲了《python3网络爬虫开发实战(第一版)》,然后因此也和爬虫结下了不解之缘。后续学习过程中发现第一版原创 2021-12-29 21:04:31 · 1560 阅读 · 0 评论 -
python实现API的调用
python实现API的调用以及数据接口的调用,常用的一些API参考示例。原创 2021-12-11 10:06:33 · 39996 阅读 · 10 评论 -
scrapy爬取360美食图片
基本介绍上面有篇博客专门对scrapy入门爬取进行了一个简单介绍,而且实现了对新闻网站数据的爬取,这次我们将要爬取360上面的美食图片。我们将图片相关的信息保存在MYSQL和MongDB数据库中,首先我们需要安装好MYSQL和MongDB数据库,安装这一块大家可以参考网上的安装教程。需求分析首先我们需要了解我们爬取的目标网站:https://image.so.com/z?ch=food,打开...原创 2019-11-09 22:03:26 · 559 阅读 · 0 评论 -
scrapy框架入门
scrapy框架Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。Scrapy 使用了 Twisted’twɪstɪd异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各...原创 2019-10-24 19:16:38 · 339 阅读 · 0 评论 -
数据存储
我们对网页进行请求后,然后利用解析器解析出数据,而做数据采集中很重要的一步就是数据存储,如何将爬取的数据保存下来,以及有哪几种途径,我这里大致的介绍一下。我们一般主要有四种,TXT文件,JSON文件,CSV文件以及数据库存储。文章目录TXT文件存储具体实例TXT文件存储将数据保存到TXT文本的操作非常简单,而且TXT文本几乎兼容任何平台,但是这有个缺点,那就是不利于检索。所以如果对检索和数据...原创 2019-10-08 11:11:56 · 205 阅读 · 0 评论 -
爬虫系列-解析库
概述在前面的实例中,我们采用正则表达式来提取相关的信息,但正则表达式过于复杂,容易写错,一旦写错就可能匹配不到我们想要的东西。所以这次博客我将介绍另一种提取信息的方法-解析库。对于网页的节点来说,它可以定义id、class或其他属性。而且节点之间还有层次关系,在网页中可以通过XPath或CSS选择器来定位一个或多个节点。那么,在页面解析时,利用XPath或CSS选择器来提取某个节点,然后再调用...原创 2019-09-25 09:41:44 · 613 阅读 · 0 评论 -
正则表达式-简单爬虫的实例
前面几篇博客主要介绍的是对于爬虫所需要的库以及相关知识点的介绍,这篇博客就是让我们练习一下真正的爬虫该怎么写。下面我主要讲两个实例,一个是b站新番的信息爬取,另一个是猫眼电影TOP100的相关信息爬取。b站新番排行榜的爬取首先我们需要request和re模块,我采用函数结构话来写爬虫,你们可以看看,首先我们找到我们需要爬取的详情页b站新番排行榜。我们需要爬取得信息有上面的新番排名,动漫名称...原创 2019-09-24 15:18:18 · 1723 阅读 · 0 评论 -
爬虫系列-正则表达式
我们常常总是说在处理字符串一类数据的时候,总会提到一个正则表达式,但每次别人提到是又爱又恨的感受,它虽然是一个万能的办法,但是它相比其他几个,麻烦很多,一般都不会用它,但它一般都是我们最后的杀手锏,我们在写爬虫的时候也少不它。工具介绍首先提供一个在线测试正则表达式的网站,点开这个链接你就可以进去看,然后最近设计一个匹配的文本,然后就可以得出合理的结果。比如:这个网站对于刚学习的小白是很有用...原创 2019-09-23 16:49:33 · 565 阅读 · 2 评论 -
python 神奇的第三方库 -Faker
在做数据处理和数据分析的时候,我们总是少不了测试数据,比如你想对设一个合理的数据清洗方案,但有的时候事先能够找一些样例做测试,但大多数的情况是我们自己构建一个测试数据。但对于我这个选择困难症的人,每次想名字或者定一些其他东西都是很纠结,前段时间在一篇微信推文上看到这个库,我觉得对我来说,受益匪浅。Faker这个库简单来说,就是造假,具体怎么造假,我这篇博客会详细的介绍。基本用法安装这个和其...原创 2019-09-21 12:00:18 · 1491 阅读 · 0 评论 -
爬虫系列-request基本库的使用
上一篇博客中,我们了解了urllib的基本用法,但是它还是存在很多缺陷,比如处理网页验证和Cookies时,需要写通过类来实例化对象比较麻烦。为了更加方便地实现这些操作,就有了更为强大的库requests,对于它来说Cookies、登录验证、代理设置等操作都容易很多。...原创 2019-09-19 16:46:53 · 426 阅读 · 1 评论 -
爬虫系列-urllib基本库的使用
学习爬虫,最基础便是模拟浏览器向服务器发出请求,请求需要来我们自己来构造?以及如何构造?具体怎么实现?服务器的响应和应答原理是什么样的?可能我们对这些一无所知,但python提供了功能齐全的类库来帮助我们完成这些请求。常用的HTTP库有urlllib.requests.trep等。而我们今天主要介绍的就是urllib库,这个库只需要我们传入相应的参数和相应的链接。首先我给出官方文档的链接,所有...原创 2019-09-18 07:57:12 · 297 阅读 · 3 评论 -
python调用百度API对数据进行情感分析
百度Al大家平常是不是被深度学习和机器学习的一些需要打标签的训练数据所困扰,小编也是这样,特别是利用深度学习进行情感分析的时候,正负面数据进行打标签是一个很繁琐的工作,人工打标签耗费时间长,成本高。最近小编在寻找数据的时候发现了一个由百度推出的Al开放平台,而且发现上面很多功能都是免费的,只需要注册一个账号。下面我就把网站介绍给大家。Al开放平台但小编今天向大家介绍的是情感倾向分析,下面小编...原创 2019-05-25 16:38:26 · 7395 阅读 · 7 评论 -
python文件操作
os库和常用命令在我们要对文件进行操作之前,必须先了解os标准库,文件操作的基础的是建立在操作系统上面完成的,现在操作系统很多都不会让普通的程序直接操作磁盘。我们的python也是一样的。而python对文件操作很多要依赖os库。os库调用方法import os然后我们需要熟悉几个os库常用的命令。os.listdir() 列出当前目录下的所有文件和文件夹(包括被隐藏的)os.sys...原创 2019-05-05 19:05:01 · 714 阅读 · 0 评论 -
python爬虫个人总结篇1
1.python中文转换url编码有很多时候,我们需要爬取搜索引擎,当你输入关键词后,形成了一个特定的网址,比如https://search.sina.com.cn/?q=%BA%FE%B1%B1%BE%AD%BC%C3%D1%A7%D4%BA&c=news&from=index,但是我输入的关键词是湖北经济学院,但其中出现一串莫名其妙的%BA%FE%B1%B1%BE%AD%BC...原创 2019-04-17 23:38:55 · 3312 阅读 · 1 评论 -
微信公众号信息爬取
微信公众号信息爬取微信公众号文章信息爬取利用的是搜狗的微信文章搜索,通过搜索页面的结合找对应关键词的文章https://weixin.sogou.com/代码的大致介绍考虑到访问频繁容易封ip 这里采用了阿布云的IP,有需求的也可以看一下https://www.abuyun.com/http-proxy/dyn-manual.html我的代码采用的是从数据库读入关键词和对应的id...原创 2019-03-11 12:41:22 · 869 阅读 · 0 评论 -
Scrapy框架爬虫和百度帖吧评论的爬取
scrapy 框架基本知识scrapy安装命令pip install scrapy或者用conda命令安装,个人感觉conda命令安装更方便,因为用pip安装一般会需要下载其他包并且要自己设置,而conda命令可以直接安装,更加方便conda install scrapy下面命令都是在cmd窗口下面cd到文件路径开始的,自己在指定文件路径创建scrapy文件,便于管理scrap...原创 2019-03-04 18:28:02 · 3240 阅读 · 3 评论 -
微博自动点赞和转发
简单的微博自动点赞和转发selenium包的简单使用首先安装selenium包pip install selenium或者用conda命令安装conda install selenium在正常使用selenium包的时候要配置电脑相应的浏览器webdriver软件,找到自己电脑上面的相对应的webdriver版本才能正常运行代码,我下面的代码是基于谷歌浏览器所配置,安装好web...原创 2019-03-04 12:09:41 · 5293 阅读 · 1 评论