Python
文章平均质量分 75
NGC2237590
记录学习~
展开
-
python爬虫scrapy
打开cmd,输入 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scrapy,回车。清华大学镜像:https://pypi.tuna.tsinghua.edu.cn/simple/中科大镜像:https://pypi.mirrors.ustc.edu.cn/simple/中科大镜像2:http://pypi.mirrors.ustc.edu.cn/simple/豆瓣镜像:http://pypi.douban.com/simple/原创 2023-07-06 10:00:46 · 1175 阅读 · 1 评论 -
python爬虫requests
1.官方文档:http://cn.python-requests.org/zh_CN/latest/2.快速上手:http://cn.python-requests.org/zh_CN/latest/user/quickstart.html安装:pip install requestsresponse的6个属性以及1个类型类型: models.Responser.text 获取网站源码r.encoding 访问或定制编码方式。原创 2023-07-05 17:39:10 · 585 阅读 · 1 评论 -
python爬虫selenium
(5)selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法执行javaScript代码的问题。selenium模块本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器;元素定位:模拟鼠标和键盘来操作这些元素,点击输入等操作这些元素前首先要找到他们,webDriver提供很多定位元素的方法。eg:browser.find_element_by_link_text("新闻") //链接文本。原创 2023-07-04 17:17:50 · 531 阅读 · 0 评论 -
python爬虫urllib cookie登陆和handler
1.cookie登录2.urllib_handler处理器2.1 handler处理器的基本使用2.2 代理服务器2.3 代理池。原创 2023-06-19 09:47:34 · 158 阅读 · 0 评论 -
python爬虫urllib_ajax请求
第一页start=0,第二页start=1,……limit都是20,表示一页有20个数据。open默认使用gbk编码,要是保存汉字,需要在open方法中指定编码格式为utf -8。附豆瓣电影动画类排行榜第一页部分源码,榜一榜二千与千寻,大闹天宫。获取前十页就需要把每一页封装起来,根据刷新找每一页的地址会发现。2.模拟浏览器向服务器发送请求。这样已经下载到本地了。原创 2023-06-17 10:28:54 · 631 阅读 · 1 评论 -
python爬虫urllib_get请求,urllib_post请求
点击Network后点击Fetch/XHR原来是没有的,再把刚开始输入的单词删掉一个字母t后刷新,会发现出来好多包,其中有sug包,复制Request URL地址。1.如果把“易烊千玺”变成unicode字符采用quote,如果好多的话,一个一个调用太麻烦了,用urlencode解决多个参数的问题。我在百度翻译中输入smart,右键检查network中并没有sug包,可能是程序进行了更新,看大家的博客后才找到的。找到v2transapi中的地址和参数,地址在Headers中。原创 2023-06-16 13:49:20 · 913 阅读 · 1 评论 -
python爬虫urllib_get请求的quote方法
这里被百度反爬,出现百度安全验证,需要在headers中加cookie属性。cookie在User-Agent上面一点的位置。依赖于import urllib.parse。获取易烊千玺页面源代码(这里是有一点问题的)将“易烊千玺”变成unicode编码形式。复制到pycharm。今天只学了这一点点鸭。原创 2023-06-15 23:48:24 · 1085 阅读 · 1 评论 -
python爬虫urliib简单使用
content=response.readlines() #按行读取,不可以使用decode。print(response.getcode()) #获得状态码,返回200,逻辑没有错。print(response.getheaders()) #获取状态信息。print(response.geturl()) #返回url地址。content=response.read(5) #返回5字节。content=response.readline() #一行。用url='http://www.baidu.com。原创 2023-06-14 20:24:10 · 916 阅读 · 0 评论