![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python网络爬虫
王樰沫
不撞南墙不回头
展开
-
MongoDB和charts库的使用
MongoDB和charts库的使用MongoDB数据存取第一步, 假设已经安装好了MongoDB, 使用管理员身份运行cmd,启动MongoDB服务。一般cmd.exe 在C:\Windows\System32中,找到cmd.exe-右击-以管理员身份运行。第二步, 在python中运行MongoDB, 实现对数据的存取数据特征的提取与可视化第一步, 同上面第一步。第二步,定位到MongoDB安...原创 2018-12-24 21:47:58 · 1115 阅读 · 1 评论 -
Scrapy框架爬虫—以京东众筹为例
Scrapy框架爬虫——以京东众筹为例第一步, 打开命令提示符,创建一个Scrapy框架;第二步,定位到创建的文件夹;第三步,在spider文件夹中创建一个.py文件(注:不要关闭命令提示符);第四步,打开items.py这个文件,将提取信息的名称、属性写入其中;第五步,打开第三步创建的.py文件;第六步,根据网页源代码查找提取信息,编写代码(这里需要修改start_urls为访问网页的网址。删除...原创 2018-12-24 17:25:13 · 1065 阅读 · 2 评论 -
Python获取网页信息的四种方式
获取网页信息的四种方式1. 标签法获取网页信息首先,使用BeautifulSoup库对网页进行解析,接着获取网页信息2. find_all 和 find 函数获取网页信息find_all 和 find 函数使用相同。 不同的是find函数返回匹配的第一个结果,结果以标签形式展现; find_all返回匹配的所以结果,结果以列表形式展现。下面以find_all函数为例进行说明:3. css sele...原创 2018-12-21 11:35:33 · 3115 阅读 · 0 评论 -
Python异步加载(Ajax)网页信息获取-以豆瓣电影为例
异步加载(Ajax)网页信息获取-以豆瓣电影为例首先,对网页进行解析其次, 提取网页内容最后,写入json文件, 获取前10页的电影信息注:异步加载获取网页url 和headers的方式如下:首先,对网页进行解析import requestsfrom bs4 import BeautifulSoup import jsonheaders = {'User-Agent':'Mozilla...原创 2018-12-21 11:21:38 · 669 阅读 · 0 评论 -
Python猫眼电影TOP100榜电影信息的获取和储存
猫眼电影TOP100榜电影信息的获取和储存首先,对网页进行解析;接着,对网页信息进行提取(注意,find函数和find_all函数的区别, find函数返回匹配的第一个结果,以标签形式;find_all返回匹配的所有结果,以列表的形式);然后, 储存为txt格式;最后,定义一个总函数,对网页进行循环遍历总代码如下:首先,对网页进行解析;# 获取网页def GetHtml(url): ...原创 2018-12-21 11:15:50 · 684 阅读 · 0 评论