![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
-从入门到放弃-
且行且珍惜
展开
-
【Python】正则表达式
http://f61be319.wiz03.com/share/s/3S6-cp1BIQ952yXKyj02PIM41OJFbm3QOkPd20LY0Q2m8zw_转载 2018-06-18 14:29:55 · 265 阅读 · 0 评论 -
【爬虫入门1】css选择器
css选择器css选择器:一种快速定位元素的方法基本用法<1>*选择所有元素.class.intro 选择所有class="intro"的元素#id#firstname 选择所有id = "firstname"的元素elementp 选择所有<p>元素:not(selector):not(p) 选择所有非p元素的元素基本用...原创 2018-08-03 21:23:14 · 1678 阅读 · 0 评论 -
【爬虫入门2】xpath
xpath什么是xpathXML路径语言,拥有在数据结构树中查找节点的能力被开发者当做小型查询语言来使用Xpath通过元素和属性进行导航为什么学习xpath1、不仅支持XML,也支持HTML(可以在HTML中查找我们需要的内容)2、比正则表达式更简单,强大3、爬虫框架,像scrapy也支持xpath节点父辈,子辈,同胞,先辈,后台路径表达式xpath...原创 2018-08-03 21:46:13 · 276 阅读 · 0 评论 -
【爬虫入门3】requests库
IP协议负责传输TCP协议负责可靠性DNS负责域名解析HTTP规定应用进程间通信和交互的规则requests库爬虫最重要的2个库,一个是获取HTML文件的requests库,一个是从HTML文件中获取想要文件的BeautifulSoup库。安装requests库:pip install requests导入requests库:import requests基本使用...原创 2018-08-03 22:51:42 · 165 阅读 · 0 评论 -
【爬虫入门4】BeautifulSoup
BeautifulSoup原创 2018-08-03 23:10:32 · 172 阅读 · 0 评论 -
【爬虫入门5】爬取酷狗TOP500
#coding utf-8import timeimport requestsfrom bs4 import BeautifulSoupclass spider_KG_top500(object): def __init__(self): print('Welcome to spider_KG_top500') def get_song_info(s...原创 2018-08-04 08:43:39 · 657 阅读 · 1 评论 -
【爬虫入门6】多进程爬取糗事百科
#coding:utf-8import timeimport requestsfrom bs4 import BeautifulSoupfrom multiprocessing import Poolclass spider_qiushi_baike(object): def __init__(self): print('Welcome to spider_...原创 2018-08-04 09:41:53 · 253 阅读 · 0 评论 -
【爬虫入门7】异步加载
异步加载原创 2018-08-04 09:56:53 · 801 阅读 · 1 评论 -
【爬虫入门8】表单交互与模拟登录
表单交互与模拟登录表单交互什么是表单交互使用python实现表单提交无论是简单网页还是采用异步加载的网页,都是使用GET方法请求网址来请求网页信息;如果想获得登录表单后的信息,就需要进行表单交互。requests的post方法import requestspayload = { 'key1': 'value1', 'key2': 'value2'}...原创 2018-08-04 11:50:14 · 1722 阅读 · 0 评论