![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
任菜菜学编程
暂无
展开
-
Mac下安装scrapy详细流程(包含坑及解决)
本人使用pycharm安装的,中间也是一路险阻1.使用pip install scrapy:无法安装(如果直接能安装好那就没问题了),查看原因是twisted这个库安装失败。解决方法1:(失败了,因为本来就是这个库安装失败,单独安装也没成功)pip install twisted解决方案2:找库文件,自己安装,不过我也没找到Mac的py库文件的查找地(附一个window的...原创 2020-01-07 14:02:13 · 1488 阅读 · 0 评论 -
python简单爬虫实例之猫眼网Top100数据抓取
现在已经大三了,之前学了好多好多东西,因为数学建模的原因开始接触matlab和python。因为对数学比较感兴趣,所以打算以后往人工智能方向发展,所以现在开始对python语言进行训练。简述:对猫眼网Top100的电影都进行抓取操作系统:macOS Mojave 10.14.3使用工具:PyCharm首先以两个简单的例子对网页数据进行抓取、存储为例,了解爬虫过程:构建URL -...原创 2019-02-18 09:54:58 · 858 阅读 · 0 评论 -
python简单爬虫实例2之百度贴吧数据抓取
结合第一次的实例,本次继续抓取网页并存储下来。简述:对百度贴吧前五页数据进行抓取操作系统:macOS Mojave 10.14.3使用工具:PyCharm过程:构建URL -> 访问URL -> 抓取网页代码 -> 构建存放文件目录 -> 存放抓取的文件此时需要注意,按照第一步的方法,以‘c语言吧’为例:http://tieba.baidu.com/f?...原创 2019-02-18 10:34:36 · 473 阅读 · 0 评论 -
python简单爬虫实例3之猫眼网top100抓取特定内容(一个页面)
实例2主要讲述一个抓取过程中可能会遇到的问题,也是非常基础的问题,类似的问题还有许多,以后也会逐步介绍。在实例一的基础上,我们使用BeautifulSoup解析html,并从中抓取我们需要的数据。BeautifulSoup的安装: 首先,进入项目所在的python环境。 这里外推荐使用Anacoda进行安装python环境。 ...原创 2019-02-18 16:04:16 · 383 阅读 · 0 评论 -
python简单爬虫实例4之猫眼网top100抓取特定内容(100个电影)
在实例三的基础上进行加强,当一个网页抓取好后,抓取全部网页也就非常容易了。from bs4 import BeautifulSoupfrom urllib.request import urlopendef get_one_page(x): #字符串的格式化处理: {}占位符表示未知的参数,后面会补上 url = 'https://maoyan.com/board/4?...原创 2019-02-18 16:57:01 · 478 阅读 · 0 评论 -
python简单爬虫实例5之抓取猫眼网数据并存放数据库
继续之前的实例上进行操作。本次主要介绍SQLite的使用。首先简单一介绍,SQLite是一个内置数据库,是以一种文件的方式存储的。1.创建数据库数据库创建过程如下代码(有基础的道友可以轻松阅读,没有基础的建议预习一下数据库语言,在此不做详细介绍):import sqlite3import osdb_file = 'maoyan.db'# 创建表def create...原创 2019-02-18 18:34:00 · 1047 阅读 · 0 评论 -
python简单爬虫实例6之通过标签抓取贴吧特定内容
任务目标:抓紧某贴吧的特定内容,以steam吧为例,我们抓取帖子名称-发布者-回复数并保存到tieba.db中。注意点:1.url中关键字是URL编码形式的。 2.使用select方法定位class时,有些内容无非定位到。(具体原因我也不太清楚,可能是网站反爬虫措施导致的吧,如果有了解的,可以下方评论告知,万分感谢)使用find_all方法可以精确定位到se...原创 2019-02-19 09:14:19 · 722 阅读 · 0 评论 -
python简单爬虫实例7之使用selenium通过标签抓取贴吧特定内容并保存
本次使用selenium模拟浏览器,并提取数据。任务:针对百度贴吧,根据标签定位特定内容,并且提取帖子名称、作者、回复数,并且自动点击下一步1.selenium的安装与使用: 第一步:在python环境中安装selenium,该过程可以参考我的一个帖子https://blog.csdn.net/RHJlife/article/details/87624520安装...原创 2019-02-20 20:52:52 · 1396 阅读 · 0 评论