![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python
ZHXU1998
这个作者很懒,什么都没留下…
展开
-
python 爬虫入门 练习六 (ajax + json) 异步加载的网站
import jsonimport randomimport timefrom multiprocessing.dummy import Pool as ThreadPoolimport requestsfrom lxml import etreefrom requests import urllib3proxies_list = []user_agent = [ 'Mo...原创 2019-11-18 21:36:56 · 589 阅读 · 0 评论 -
python 爬虫入门 练习五 代理ip的获取
import requestsfrom lxml import etreefrom requests import urllib3import randomimport timeuser_agent = [ 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0...原创 2019-11-16 14:18:56 · 257 阅读 · 0 评论 -
python 爬虫入门 练习四 selenium 保存登录cookie到本地反复使用
本次用到的主要是 selenium chrome 模拟这个真的是太慢了其实存下cookie 用 request 也是可以的本次遇到的问题发生异常: InvalidCookieDomainExceptionMessage: invalid cookie domainInvalidCookieDomainExceptionMessage: invalid cookie expiry...原创 2019-11-12 21:30:30 · 884 阅读 · 0 评论 -
python爬虫入门 练习三 登录无加密网站 模拟登录 (post提交)
前言作为requests.post的练习 本次就比较简单了 代码比之前的不知道少了多少23333这次只是选了一个登录只是简单的 post 账户名和密码 的论坛 知乎和其他网站现在都有要用打某个页面下载后某个json文件的关键值取作hash 验证是不是机器人醉了 目前还没有学会正文这里我检验自己的方式是 模拟登录 获得 刚注册系统发来的提示信息步骤1既然是用post 进行登录 我们显然要...原创 2019-11-11 19:30:28 · 663 阅读 · 0 评论 -
python爬虫入门 练习二 静态页面图片爬 (adnmb)
与前文差不多1.前置知识html一些知识python基本语法简单的一些爬虫库api调用2.所用到的包requestsbs4 import BeautifulSoup Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库(可以理解为 一个处理文本工具吧)ossyshttps://cn.python-requests.org/zh_CN/l...原创 2019-11-10 15:53:37 · 1842 阅读 · 0 评论 -
python爬虫入门 练习一 静态页面文本爬取 (html内中文乱码问题处理)
1.前置知识html一些知识python基本语法简单的一些爬虫库api调用2.所用到的包requestsbs4 import BeautifulSoup Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库(可以理解为 一个处理文本工具吧)ossys3.我练习所遇到的问题部分页面文本get下来 出现大量 /x84/xxx/xxx 格...原创 2019-11-09 19:06:35 · 949 阅读 · 1 评论