![](https://img-blog.csdnimg.cn/20210430202843862.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Python爬虫
文章平均质量分 73
Python爬虫
叶 落
这个作者很懒,什么都没留下…
展开
-
动态网页的抓取
已写章节第一章 网络爬虫入门第二章 基本库的使用第三章 解析库的使用第四章 数据存储第五章 动态网页的抓取文章目录已写章节第五章 动态网页的抓取(Selenium)5.1 Ajax的原理5.2 Selenium的使用5.2.1 准备工作5.2.2 Selenium的使用1. 声明浏览器对象2. 访问页面3. 查找节点4. 查找多个节点5. 节点交互6. 动作链7. 滑动页面8. 执行JavaScript9. 获取节点的信息10. 切换Frame11. 等待12. 控制页面前进和后退13. 对c.原创 2021-06-04 22:24:39 · 7580 阅读 · 13 评论 -
对爬虫爬取到的数据进行存储
第四章 数据存储用解析库提取出我们想要的数据之后,接下来就是存储数据了。保存的形式有很多,可以直接保存为文本文件,如:TXT,JSON,CSV等。也可以存储到数据库中,如关系型数据库MySQL,非关系型数据库MongoDB等。4.1 文件存储4.1.1 TXT文件存储import requestsfrom lxml import etreefrom fake_useragent import UserAgent# 将解析后的数据存储为TXT文件headers = { 'use原创 2021-05-20 08:02:20 · 4437 阅读 · 2 评论 -
Python爬虫 解析库的使用
第三章 解析库的使用3.1BeautifulSoupBeautifulSoup也被称作为”美味汤“,BeautifulSoup提供了一些简单的、Python式的函数来处理导航、搜索、修改和分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据。BeautifulSoup已成为和lxml、html6lib一样出色的Python解释器,为用户灵活的提供不同的解析策略或强劲的速度。作者提示:当你学习了Xpath后,你会发现BeautifulSoup是非常不好用的,并且学了Xpath之后原创 2021-05-18 23:02:01 · 1553 阅读 · 11 评论 -
Python爬虫基本库的使用
第二章 基本库的使用2.1 urllib库的使用(非重点)urllib的官方文档urllib是Python中自带的HTTP请求库,也就是说不用额外安装就可以使用,它包含如下四个模块:requests:基本的HTTP请求模块,可以模拟发送请求error:异常处理模块parse:一个工具模块,提供了许多URL处理方法,比如拆分、解析、合并等。robotparser:它主要用来识别网站的robots.txt文件,让后判断哪些内容可以爬取,哪些不能爬取,用得比较少。2.1.1 reque原创 2021-05-17 19:22:30 · 1290 阅读 · 1 评论 -
Python网络爬虫基础
第一章 网络爬虫入门1.1 为什么要学习爬虫1.1.1 爬虫是什么爬虫又被称为网页蜘蛛、网页机器人,爬虫是一种按照一定的规则,自动的抓取互联网信息的程序或脚本。网络爬虫是搜索引擎系统中十分重要的组成部分,它负责从互联网中收集网页,采集信息,这些网页信息用于建立索引,从而为搜索引擎提供支持,它决定了整个搜索引擎的内容是否丰富,信息是否及时,因此爬虫的性能的高低直接决定了搜索引擎的效果。1.1.2 网络爬虫能干什么兴趣爱好了解竞争对手抓取某个网站或应用中的内容,提取有用的价值提取数据,帮原创 2021-05-16 22:49:46 · 850 阅读 · 0 评论 -
Python爬取某旅游网站中的中国城市信息
分析这是目标网址可以发现它是通过点击下一页来翻页的,所以可以大概率判断它每一页的链接是有规律的,我们找出它的前两页的链接:https://place.qyer.com/china/citylist-0-0-1/https://place.qyer.com/china/citylist-0-0-2/可以发现的确是有规律的,再找一个稍微后一点的页面看看:https://place.qyer.com/china/citylist-0-0-169/这下确定无疑了,可以看到,它有171个页面,链接中原创 2021-03-12 21:59:27 · 579 阅读 · 0 评论 -
爬取豆瓣TOP250并将数据保存为txt文件和csv文件并存入MySQL数据库
项目源码import requests # 发起请求的库from fake_useragent import UserAgent # 构造user-Agent的库import mysql.connector # Python和MySQL连接的库from typing import NoReturn, Tuple # 类型标注的库from lxml import etree # 使用lxml提取html的库import re # Python中的正则表达式库import原创 2021-03-06 16:41:21 · 1468 阅读 · 0 评论 -
使用selenium爬取某东的手机商品信息
程序完整代码from selenium import webdriver # 自动化爬取工具库import time # 让程序休眠一段时间的库from lxml import etree # lxml解析库import mysql.connector # Python和数据库连接库import random # 生成随机数的库from typing import NoReturn, Tuple, List # 类型标记库class JD_example():原创 2021-03-06 10:26:51 · 332 阅读 · 0 评论 -
爬取某瓣电影中你好,李焕英电影的短评并生成词云
要爬取的目标链接:项目结构:其中img.png是背景图片,lhz.py是Python代码,lhz.text是爬取到的短评,msyh.ttc是字体文件,new_inclound.png是生成的词云图片。字体文件和背景图片下载链接提取码:8888下面是完整的代码:import requests # 请求库,需要安装from fake_useragent import UserAgent # 构造user—Agent的库,需要安装from lxml import etree # 使用原创 2021-03-04 17:16:25 · 1492 阅读 · 2 评论 -
‘MicrosoftWebDriver.exe‘ executable needs to be in PATH.
首先,需要说明的是,我将edge的驱动放在Python的安装目录下的Scripts目录中。然后使用selenium驱动Edge的时候,报如下错误:说Edge的驱动需要添加到path中,也就是需要添加到环境变量中,我添加后依然不能解决问题,最后,我还是加上了edge驱动的绝对路径解决了问题:from selenium import webdriverbrowser = webdriver.Edge('E:\python\Scripts\msedgedriver.exe') browser.get原创 2021-02-24 22:33:13 · 9073 阅读 · 9 评论