Python编程
雀影
这个作者很懒,什么都没留下…
展开
-
python爬虫--selenium滚动条的处理--实战爬取京东商品价格与商品名
selenium滚动条的处理很简单,只需在代码中添加一下内容即可:# 处理滚动条,因为刚开始加载页面时,滚动条的内容较短,只有等待一定时间页面才能完全加载成功js = "document.documentElement.scrollTop=100000"chrome.execute_script(js)# 一定要睡够足够的时间,才能保证加载完全sleep(20)完整的代码如下from selenium import webdriverfrom lxml import etreefrom原创 2021-02-01 21:59:11 · 9193 阅读 · 3 评论 -
python爬虫--使用selenium--实战爬取虎牙直播平台
今天我们对虎牙平台的lol板块的主播信息进行爬取,主要爬取主播名称,以及观看人数。下面我们先来分析一下网页源吧:这张图片下面的翻页列表是动态的,随着上线的主播越来越多,翻页的列表也会越来越大。通过XpathHelper工具我们可以找到主播网名对应的xpath路径,同理我们可以找到对应观看人数的xpath下面我们开始编写代码吧。本次爬虫练习,我们使用selenium模块进行爬取,使用selenium不用关注网页是静态的,还是动态的,直接进行加载就可以了# 使用selenium不用关注网页是静态原创 2021-02-01 16:49:04 · 2768 阅读 · 3 评论 -
selenium.common.exceptions.StaleElementReferenceException: Message: stale element reference: element
一天一bug,个个不一样今天写python爬虫,又又又遇到了bug。先看一些bug长什么样吧。 raise exception_class(message, screen, stacktrace)selenium.common.exceptions.StaleElementReferenceException: Message: stale element reference: element is not attached to the page document (Session info原创 2021-02-01 15:40:58 · 2099 阅读 · 0 评论 -
python爬虫--Selenium的使用
1. SeleniumSelenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。Selenium 可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生。Selenium 自己不带浏览器,不支持浏览器的功能,它需要与第三方浏览器结合在一起才能使用。但是我们有时候需要原创 2021-02-01 10:57:06 · 215 阅读 · 0 评论 -
python爬虫--实战爬取某电影网站的电影名与电影类型
跌跌撞撞的终于完成了对于某电影网站的爬取。这个网站最令人头疼的问题就是采取了反爬虫的措施,期间我的多个IP接连没封锁,令人心疼。这次的任务主要是爬取电影名称与电影种类:下面让我来分析一下怎么做的吧:首先对index_url进行html文件爬取,解析这一部分工作主要由get_html()与prase_html()函数完成其次对具体的一个个电影介绍的url的html文件爬取,解析。这一部分工作则由praseinfo()函数完成。下面看一下我写的代码吧:import requestsfrom原创 2021-01-31 21:51:37 · 1993 阅读 · 1 评论 -
使用pycharm编写python爬虫时的乱码解决方案
一天一bug,个个不一样。今天在编写python爬虫时,又遇到了乱码。先看一下我编写的代码:import requestsfrom fake_useragent import UserAgenturl = "http://www.farmer.com.cn/2021/01/25/99864972.html"headers = { 'User-Agent': UserAgent().random}response = requests.get(url, headers=header原创 2021-01-30 11:46:43 · 1358 阅读 · 1 评论 -
网络安全--python编写自动化目录扫描脚本
本文主要介绍使用python编写目录扫描脚本老规矩,先贴代码再解释:import sysimport requestsfrom fake_useragent import UserAgentfrom optparse import OptionParserfrom threading import Thread# 扫描类class webDirScan(Thread): def __init__(self, options): Thread.__init__(se原创 2021-01-29 11:40:23 · 841 阅读 · 1 评论 -
python爬虫--多线程的学习--实战爬取糗事百科
1. 为什么要使用多线程使用单线程的危害:一旦一个地方卡到不动了,那不就永远等待下去了?多线程的优点:为此我们可以使用多线程来处理问题,并且在网络请求中多使用多线程2. 如何使用爬虫使用多线程来处理网络请求,使用线程来处理URL队列中的url,然后将url返回的结果保存在另一个队列中,其它线程在读取这个队列中的数据,然后写到文件中去3. 多线程主要组成部分3.1 URL队列和结果队列将将要爬去的url放在一个队列中,这里使用标准库Queue。访问url后的结果保存在结果队列中初始原创 2021-01-26 16:27:47 · 144 阅读 · 0 评论 -
使用pycharm编写python爬虫时出现乱码的解决方案UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\U0001f601‘ in
一杯茶,一首歌,一个bug改一天。今天在学习python多线程时,遇到的了乱码的情况,让我们先看一看是什么情况的吧在这样一段代码中:response = requests.get(url_queue.get(), headers=headers)info = response.textprint(info)报出如下错误:UnicodeEncodeError: 'gbk' codec can't encode character '\U0001f601' in position 36140:原创 2021-01-25 17:06:03 · 5249 阅读 · 6 评论 -
Python爬虫练习--pyquery的练习--实战爬取匿名代理ip
1. pyquery1.1 介绍如果你对CSS选择器与Jquery有有所了解,那么还有个解析库可以适合你–Jquery官网https://pythonhosted.org/pyquery/1.2 安装pip install pyquery1.3 使用方式1.3.1 初始化方式字符串 from pyquery import PyQuery as pq doc = pq(str) //通过pq模块将我们传送的内容进行解析,并生成一个doc对象,便于原创 2021-01-20 16:14:33 · 351 阅读 · 0 评论 -
爬虫练习--正则表达式实战编写步骤--案例:糗事百科
先上代码,在解释:import requestsfrom fake_useragent import UserAgentimport reurl = "https://www.qiushibaike.com/text/page/1/"headers = { "User-Agent": UserAgent().random}#构造请求,发送请求,返回请求response = requests.get(url,headers=headers)info = response.text#原创 2021-01-18 14:41:51 · 141 阅读 · 0 评论 -
re.match()到底会返回什么?
1.re.match()到底会返回什么?根据菜鸟教程的解释,如下图:从图中的解释,我们可以看出“菜鸟教程” 并没有解释 “在起始位置匹配成功,会返回什么”,那么到底会返回什么呢?现在我们通过python编程实验来看看到底会返回什么:import reprint(re.match('www', 'www.runoob.com')) # 在起始位置匹配print(re.match('com', 'www.runoob.com')) # 不在起始位置匹配返回结果如下:<re.Matc原创 2021-01-15 11:58:22 · 7529 阅读 · 5 评论 -
Python爬虫requests库的使用教程
1. 介绍对了解一些爬虫的基本理念,掌握爬虫爬取的流程有所帮助。入门之后,我们就需要学习一些更加高级的内容和工具来方便我们的爬取。那么这一节来简单介绍一下 requests 库的基本用法2. 安装利用 pip 安装pip install requests3. 基本请求req = requests.get("http://www.baidu.com")req = requests.post("http://www.baidu.com")req = requests.put("http:/原创 2021-01-13 17:19:13 · 343 阅读 · 0 评论 -
Python爬虫学习--Cookie的使用
1. Cookie为什么要使用Cookie呢?Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容是不允许的。那么我们可以利用Urllib库保存我们登录的Cookie,然后再抓取其他页面就达到目的了。1.1 Opener当你获取一个URL你使用一个opener(一个urllib.OpenerDirector的实例)。在前面,我们都是使用的默认的opener,也就是url原创 2021-01-13 12:14:32 · 1259 阅读 · 0 评论 -
Could not install packages due to an EnvironmentError: [WinError5] 拒绝访问。: ‘c:\\program files\\python
在使用pip命令安装easygui时出现如下错误:Could not install packages due to an EnvironmentError: [WinError 5] 拒绝访问。: 'c:\\program files\\python\\Lib\\site-packages\\easygui'Consider using the `--user` option or check the permissions.一般这种错误都是权限不足导致的解决方案如下:1.使用管理员身份打开原创 2021-01-10 18:26:57 · 279 阅读 · 0 评论 -
‘gbk‘ codec can‘t decode byte 0x80 in position 26: illegal multibyte sequence
Python在读文件时:源码如下:f = open(‘C:\Users\34682\Desktop\test.txt’, ‘r’)print(f.read())输出报错:Traceback (most recent call last):File “D:/python_yuC/字典”, line 6, in print(f.read())UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0x80 in position 26: illegal原创 2021-01-09 19:43:14 · 1841 阅读 · 2 评论