爬虫
镇长1998
菜鸟升级。
展开
-
selenium爬取图像
目标内容(红框中的图片)代码from tqdm import tqdmfrom selenium import webdriverfrom six.moves import urllibwd = webdriver.Chrome()names = ['spellList']targetUrls = ['https://lol.qq.com/data/info-spell.shtml#Navi', ]for index, name in enumerate(names): wd.原创 2021-09-25 12:09:13 · 998 阅读 · 2 评论 -
Selenium 与 webdriver
1.webdriver.exe的存放位置: 直接把webdriver.exe文件扔到安装python的文件夹下的Script文件里就可以了。 2.窗口多开:# 打开一个新的页面self.driver.execute_script("window.open(%s)" % url)# 切换到这个新的页面中self.driver.switch_to_window(self....原创 2019-02-14 13:55:31 · 383 阅读 · 0 评论 -
url详解
url格式: scheme://host:port/path/?query-string=xxx#anchor scheme:代表访问的协议,一般为http或者httpshost:主机名,域名,比如:www.baidu.comport:端口名,访问一个网站的时候默认80端口path:查找路径 /cans/index.html就是URL中的路径,http://w...原创 2019-02-13 21:04:20 · 163 阅读 · 0 评论 -
HTML标签的get方法
1. 获取标签属性的时候,可以先获取整个标签,再利用get()方法获取标签的属性import requestsfrom lxml import etreehtml=requests.get('https://www.w3cschool.cn/').texthtml=etree.HTML(html)res=html.xpath('//li//a') #获得li标签for re ...原创 2019-02-13 10:13:50 · 6739 阅读 · 0 评论 -
Python----爬虫----多线程的一些注意点
1.2.线程调用的函数一旦执行完毕,线程结束。 3.线程调用类 只要类中的run方法执行完,那么这个线程就执行完了。原创 2019-02-13 00:52:24 · 254 阅读 · 0 评论 -
selenium webdriver 实现浏览器窗口自动下滑至底端
窗口从顶端下滑from selenium import webdriverdriver=webdriver.Chrome()driver.get('https://blog.csdn.net/maybe_frank/article/details/79374866')i=100for i in range(2,90): #也可以设置一个较大的数,一下到底 js =...原创 2019-02-16 17:45:22 · 9042 阅读 · 3 评论 -
网页源码的编码与解码
1. 函数 urlencode()的编码设置方法: urlencode(search,encoding='gb2312') search:字典,不废话了。encoding:+要把编码方式改成的编码方式 2.get()返回的response对象设置编码方式: res=requests.get(url) res.encoding="gb2312" 把编码方式改变成‘...原创 2019-01-30 12:38:26 · 3115 阅读 · 0 评论 -
爬虫的POST的使用
只写出post怎么用的,我不写post的具体原理,我也不清楚。。。。。post格式写法:response=requests.post(url,data=data,headers=header)请求网址url:data是一个字典,是其要提交的查询字符串,就是下图的data:headers是一个字典,其字典里装的是伪装头部分,里面有 User-Agent、cookie...原创 2019-02-14 20:16:20 · 2399 阅读 · 0 评论 -
爬虫返回JSON
当爬虫返回一个JSON数据的时候,可以对返回的response对象直接应用json()方法来将其转换python对象,相当于对response.text应用load()方法,当返回不是JSON数据的时候,使用json()方法,会报错。import requestsimport jsonresponse=requests.get(url)res=reponse.json()...原创 2019-02-14 18:37:56 · 859 阅读 · 0 评论 -
JSON字符串
正如标题,json格式是一种字符串,而这种字符串可以通过load()或loads()函数,转换成python的数据格式:字典、列表、字符串、整形、浮点型。 同样python特定的数据形式也可以通过dump()和dumps()函数来转换成对应的json字符串。在json字符串中多个数据之间使用逗号分开。注意:json本质上就是一个字符串,因为在最外边字符串使用单引号表示,所以里面的字符串就都要用双引...原创 2019-02-14 17:09:08 · 434 阅读 · 0 评论 -
CSV文件的写入与读出
写入到csv文件:import csvheaders = ['name','age','classroom']values = [ ['知了',18,'111'], ['wena',20,'222'], ['bbc',21,'111'],]with open('test.csv','w',encoding='utf-8',newline='') as fp:...原创 2019-02-14 16:40:14 · 703 阅读 · 0 评论 -
百度贴吧的图片爬取
今天抽时间爬了一下百度贴吧的图片原创 2019-01-27 23:38:30 · 444 阅读 · 1 评论 -
爬虫---今日头条
今天爬了今日头条,今日头条反爬真强,就1次就给我IP封了12小时,下次得用代理IP!!!废话不多说,直接甩代码:import requestsimport refrom time import sleepfrom urllib.parse import urlencodefrom urllib.request import urlretrieveimport jsond...原创 2019-01-25 10:38:41 · 1095 阅读 · 0 评论