Python爬虫
文章平均质量分 92
Python爬虫过程中出现的问题以及相应的解决办法同时会有实例笔记记录
施施吖
人性最深切的需求就是渴望别人的欣赏。
展开
-
Python爬虫——安装Redis及可视化工具
安装Redis及可视化工具一、安装Redis链接:Redis-x64-3.2.100.msi及可视化工具包 提取码为: a8meRedis-x64-3.2.100.msi只需按照步骤一直next下去进行了。我将其放在了D:\software\redisa_启动服务命令.bat 文件中内容为:redis-server.exe redis.windows.confa_启动客户端.b...原创 2020-04-06 13:49:22 · 326 阅读 · 0 评论 -
Python爬虫——爬取网站多页数据
1.利用“固定网址”+“下页”方法同样使用豆瓣电影的网页来进行分析,https://movie.douban.com 豆瓣电影网站#获取下一页地址#获取下一页地址 try: next_url = list.xpath('//span[@class="next"]/a/@href')[0] #@href是获取href的地址 if next_u...原创 2020-03-29 01:29:10 · 30066 阅读 · 6 评论 -
Python爬虫——XPath的使用(B)
使用XPath爬取豆瓣电影的信息1.下载lxml库lxml是一个非常重要的库,后面的Beautiful Soup、Scrapy框架都需要用到此库,XPath是一个解析语言,只有安装解析库才可以对网页数据进行解析 方法一:在cmd中输入 pip install lxml 方法二:在pychar...原创 2020-03-29 00:23:51 · 810 阅读 · 0 评论 -
Python爬虫——BeautifulSoup的使用(C)
使用BeautifulSoup爬取豆瓣电影的信息1.下载BeautifulSoup库 方法一:在cmd中输入 pip install bs4 方法二:在pycharm的setting中添加bs42.导入需要的库# 导入需要的库from bs4 import BeautifulSoupi...原创 2020-03-28 23:24:05 · 295 阅读 · 0 评论 -
Python爬虫——selenium模拟京东网站登录(一)
1.导入需要的库import timefrom selenium import webdriver2.浏览器获取驱动需要下载跟chrome浏览器相匹配的驱动driverchrome.exe,详情见:根据电脑浏览器的版本下载相应的驱动chromedriver.exe,环境变量的配置,详情见这里Window 下配置ChromeDriver(简单4步完成)再将driverchrome.exe...原创 2020-03-28 16:11:53 · 3984 阅读 · 0 评论 -
Python爬虫——使用Scrapy实现图片的爬取(四)
使用scrapy实现爬虫实例——图片爬取 继前三章中Spider爬取数据,Item收集数据后交给Pipeline对数据进行处理,本章在前三章的基础上继续实现对图片的爬取。一、Spider爬取数据spider文件夹中booksSpider.py代码:from scrapy import Requestfrom scrapy.spiders...原创 2020-03-14 22:18:06 · 1125 阅读 · 1 评论 -
Python爬虫——使用Pipeline实现数据的处理(三)
使用scrapy实现爬虫实例——继上一章Item数据封装一、Pipeline介绍 当我们通过Spider爬取数据,通过Item收集数据后,就要对数据进行一些处理了,因为我们爬取到的数据并不一定时我们想要的最终数据,可能还需要进行数据的清洗以及验证数据的有效性。Scripy中的Pipeline组件就用于数据的处理,一个Pipeline组件就是一...原创 2020-03-14 20:46:41 · 1464 阅读 · 0 评论 -
Python爬虫——使用Item实现数据的封装(二)
使用scrapy实现爬虫实例——继上一章spider数据爬取一、Item介绍 上章通过Spider爬取到了数据,为了收集抓取到的这些数据,Scrapy提供了一个简单的容器Item。Item对象是一个简单的容器,用于收集抓取到的数据,其提供了类似于字典(dictionary-like)的API并具有用于声明可用字段的简单语法。Scrapy还定义...原创 2020-03-14 20:11:03 · 1003 阅读 · 0 评论 -
Python爬虫——使用Spider实现数据的爬取(一)
Scrapy框架一、Scrapy安装使用命令:pip install scrapy安装成功后验证是否成功,输入如下代码,执行:import scrapyprint(scrapy.version_info)我这里输出的是(1,6,0)版本,说明scrapy安装成功二、第一个Scrapy网络爬虫1.在cmd中创建项目的位置,我的路径是D:\Pro\WebWorm\Pro_Scrapy...原创 2020-03-14 18:08:46 · 6896 阅读 · 0 评论 -
Python爬虫——正则表达式的使用(A)
如果说网络爬虫爬取的网页信息是数据大海,正则表达式就是我们进行“大海捞针”的工具。1.正则表达式的重要符号符号描述\w匹配字母、数字、下划线\W匹配不是字母、数字、下划线的字符\s匹配空白字符\S匹配不是空白字符\d匹配数字\D匹配非数字的字符.匹配任意一个字符(包括汉字),换行\n除外*重复0或N次+重复...原创 2020-02-20 16:18:27 · 1256 阅读 · 0 评论 -
Python爬虫——使用lxml库中的etree模块时显红报错,但又可以正常运行
ImportError: cannot import name ‘etree’ from ‘lxml’今天在做网络爬虫的时候,需要用上xpath,环境中已经安装了lxml库,结果引入的时候,显红报错,如图所示:我的环境是 python3.7.4 +lxml 4.4.1编译器:PyCharm报错原因: python3.5之后的 lxml 库中不能直接引入etree模块,新的版本无法直接...原创 2020-02-21 18:41:03 · 4378 阅读 · 2 评论 -
Python爬虫——xpath().[0]的用法
①import requestsfrom lxml import etreeurl="https://movie.douban.com/top250"header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.394...原创 2020-03-14 11:35:32 · 10095 阅读 · 2 评论 -
Python爬虫——爬取网页时出现中文乱码问题
网页字符乱码处理一、查看原网页编码的方式 1.首先呢,咱来说说如何在网页中查看编码方式,以爱奇艺为例,爱奇艺进入爱奇艺网页页面,鼠标 “右击–>检查–>点击Console–>输入document.charse 即可显示出网页的编码格式,如图:![在这里插入图片描述](https...原创 2020-03-02 00:50:14 · 40719 阅读 · 17 评论 -
Python爬虫——xpath出现错误 AttributeError: 'NoneType' object has no attribute 'xpath'
AttributeError: ‘NoneType’ object has no attribute ‘xpath’在利用xpath爬取网站信息时import requestsfrom lxml import etreeurl = "https://movie.douban.com/top250"html = requests.get(url).textMovie = etree.H...原创 2020-02-27 18:14:34 · 31020 阅读 · 15 评论