《爬虫网络开发实战》

爬虫基础

URL&&URI

1532113-20181224110505028-851135039.png

请求方法:GET&&POST

1532113-20181224111030115-599536764.png

响应

1532113-20181224111252385-1806012745.png
1532113-20181224111551969-1478357031.jpg

基本库的使用

urllib

1532113-20181224112208365-419907808.png
1532113-20181224112629312-1605579818.png

urlopen(传递参数data)

1532113-20181225093255461-1730176558.png

urlopen(设置超时timeout)

1532113-20181225093605376-77115226.png

打开网站需要验证账号密码可以借助HTTPBasicAuthHandler完成

1532113-20181225094507103-435649460.png

代理IP,ProxyHandler

1532113-20181225094818877-1583195722.png

1532113-20181225095235979-1164833789.png
1532113-20181225095308174-1414803098.png

解析连接urlparse

1532113-20181225095738263-1607704442.png

url拼接使用urljoin

1532113-20181225100130234-1640429138.png

urlencode可以把参数拼接进url

1532113-20181225100350173-1710475909.png

当url传入的参数是中文是需要使用quote转换为URL的编码格式

1532113-20181225100636329-41321901.png

url.requests(urlopen)

1532113-20181225101043715-1555258763.png

requests.post上传文件

1532113-20181225101505352-914369014.png

获取网站的cookie

1532113-20181225101711489-1792630083.png

会话维持(session)

1532113-20181225102119231-1540165593.png

verify设置SSL证书的检查与否

1532113-20181225102412344-472463035.png

HTTP代理&&socks协议代理

1532113-20181225102722824-704894411.png

requests身份认证(账号密码)

1532113-20181225102930984-425177708.png

通过etree模块修正HTML文本

1532113-20181225105318154-894019046.png

通过etree的XPath匹配节点

1532113-20181228100746683-182669751.png
1532113-20181228100831539-1768285943.png
1532113-20181228100912185-843822121.png
1532113-20181228100955790-673608381.png
1532113-20181228101005597-465437359.png
1532113-20181228101046124-1020382325.png

from etree import etree匹配节点属性

1532113-20181228101208203-1448086318.png
1532113-20181228101416826-568278722.png

1532113-20181228101346297-438084527.png
1532113-20181228101357522-1895108129.png

lxml--etree属性获取

1532113-20181228101543855-1895619355.png

lxml--etree属性多值匹配

1532113-20181228101756360-2027255746.png

lxml--etree多属性匹配

1532113-20181228101901150-841303323.png
1532113-20181228101928296-1903122681.png

按序选择

1532113-20181228102129248-986311599.png

节点轴选择

1532113-20181228102323134-1759916782.png

1532113-20181228102330479-849225012.png

1532113-20181228102406419-1442790966.png

BeautifulSoup

1532113-20181228102753308-1541263160.png
1532113-20181228102805351-2089083968.png

节点选择器

1532113-20181228103117748-121360431.png
1532113-20181228103136014-1670786745.png
1532113-20181228103152400-2047177764.png
1532113-20181228103526357-1922363879.png
1532113-20181228103555646-2072801099.png
1532113-20181228103628685-1924491465.png
1532113-20181228103812321-193957731.png
1532113-20181228104022765-1696572384.png
1532113-20181228104155677-1403781871.png
1532113-20181228104210209-955659979.png
1532113-20181228104325690-1085803954.png

1532113-20181228104344172-1416771984.png

1532113-20181228104349106-1378741843.png

CSS选择器

1532113-20181228104540993-581931439.png
1532113-20181228104701829-869235063.png

pyquery

1532113-20181228104841131-144777577.png
1532113-20181228105002692-601983690.png
1532113-20181228105023324-452386778.png
1532113-20181228105403232-1037188798.png
1532113-20181228105412323-1065297889.png
1532113-20181228105514092-288925488.png
1532113-20181228105538030-333068376.png
1532113-20181228105609064-626428894.png
1532113-20181228105655156-1023047711.png
1532113-20181228105711900-317978198.png
1532113-20181228105733860-1601538775.png
1532113-20181228110007006-500962386.png
1532113-20181228110030093-724746732.png
1532113-20181228110134909-330906528.png
1532113-20181228110427236-2032210771.png
1532113-20181228110555564-1828173400.png
1532113-20181228110607629-279145249.png
1532113-20181228110731670-1834598547.png

MySQL

1532113-20181228111347341-1454155666.png
1532113-20181228111431629-1848741529.png
1532113-20181228111447302-1319538739.png
1532113-20181228111506375-1715745391.png
1532113-20181228111544170-1168652789.png
1532113-20181228111612984-1014771590.png
1532113-20181228111641266-1575822329.png
1532113-20181228111714314-1207250259.png

MongoDB

1532113-20181228111838472-87009532.png
1532113-20181228111853073-1941832070.png
1532113-20181228111919013-1858118007.png
1532113-20181228111940747-1921156308.png
1532113-20181228112000718-799890337.png
1532113-20181228112028782-2013221322.png
1532113-20181228112045961-321292229.png
1532113-20181228112106830-743762325.png
1532113-20181228112133581-1466807085.png
1532113-20181228112143308-2104320876.png
1532113-20181228112156277-489633902.png
1532113-20181228112453185-1797472300.png
1532113-20181228112516540-223959395.png
1532113-20181228112634285-1777398426.png
1532113-20181228112719103-1189707476.png

1532113-20181228112723022-989247559.png

Redis

1532113-20190103213600093-189290478.png
1532113-20190103213726287-407200403.png
1532113-20190103213753709-471121940.png
1532113-20190103213802264-893803005.png
1532113-20190103213948891-2069896623.png
1532113-20190103214202204-2068797549.png
1532113-20190103214219520-327021641.png
1532113-20190103214559829-1850373062.png
1532113-20190103214638093-1061092438.png

1532113-20190103214633616-1327066414.png
1532113-20190103215119111-1758289474.png

1532113-20190103215112432-1377855580.png
1532113-20190103215457793-294960294.png

1532113-20190103215506796-837762429.png
1532113-20190103215730828-1906037764.png
1532113-20190103215826815-194981998.png

1532113-20190103215834432-1374464595.png
1532113-20190103220025191-1736187543.png

1532113-20190103220033948-38394045.png

redis dump

1532113-20190103220135518-693337576.png
1532113-20190103220257076-357388837.png
1532113-20190103220310318-1261827636.png
1532113-20190103220329419-1572295788.png
1532113-20190103220354810-1067656339.png
1532113-20190103220450473-2031687072.png

1532113-20190103215127211-1862931960.png

Ajax数据爬取

1532113-20190103220557353-1250986196.png
1532113-20190103220656372-236782452.png
1532113-20190103220728300-1062090948.png
1532113-20190103220736412-532059113.png
1532113-20190103220805440-2018205573.png
1532113-20190103220912473-1456701650.png

Selenium

1532113-20190103221506372-768161608.png
1532113-20190103221515796-1469080085.png
1532113-20190103221530340-1204518052.png
1532113-20190103221603766-68366187.png
1532113-20190103221656122-1247248048.png
1532113-20190103221702206-1920781310.png
1532113-20190103221759490-89475644.png
1532113-20190103221850520-23967591.png
1532113-20190103221900330-2108653327.png
1532113-20190103221926819-457170063.png
1532113-20190103221937937-2146745421.png
1532113-20190103222116316-778322244.png
1532113-20190103222211961-392275740.png
1532113-20190103222249209-2063461549.png
1532113-20190103222302781-676826412.png
1532113-20190103222315837-638268213.png
1532113-20190103222347017-855774007.png
1532113-20190103222504733-1895685016.png
1532113-20190103222638765-1474789787.png
1532113-20190103222648969-1215513231.png
1532113-20190103222705835-1136817612.png
1532113-20190103222746059-1802731704.png
1532113-20190103222753315-615139486.png
1532113-20190103222817628-1134015668.png
1532113-20190103222930052-475917821.png
1532113-20190103223010714-735885415.png
1532113-20190103223030631-1273373375.png
1532113-20190103223100032-1779083691.png

selenium--expected_conditions

selenium.webdriver.support.expected_conditions(模块)
 
这两个条件类验证title,验证传入的参数title是否等于或包含于driver.title
title_is
title_contains
 
这两个人条件验证元素是否出现,传入的参数都是元组类型的locator,如(By.ID, 'kw')
顾名思义,一个只要一个符合条件的元素加载出来就通过;另一个必须所有符合条件的元素都加载出来才行
presence_of_element_located
presence_of_all_elements_located
 
这三个条件验证元素是否可见,前两个传入参数是元组类型的locator,第三个传入WebElement
第一个和第三个其实质是一样的
visibility_of_element_located
invisibility_of_element_located
visibility_of
 
这两个人条件判断某段文本是否出现在某元素中,一个判断元素的text,一个判断元素的value
text_to_be_present_in_element
text_to_be_present_in_element_value
 
这个条件判断frame是否可切入,可传入locator元组或者直接传入定位方式:id、name、index或WebElement
frame_to_be_available_and_switch_to_it
 
这个条件判断是否有alert出现
alert_is_present
 
这个条件判断元素是否可点击,传入locator
element_to_be_clickable
 
这四个条件判断元素是否被选中,第一个条件传入WebElement对象,第二个传入locator元组
第三个传入WebElement对象以及状态,相等返回True,否则返回False
第四个传入locator以及状态,相等返回True,否则返回False
element_to_be_selected
element_located_to_be_selected
element_selection_state_to_be
element_located_selection_state_to_be
 
最后一个条件判断一个元素是否仍在DOM中,传入WebElement对象,可以判断页面是否刷新了

验证码识别

1532113-20190104213829841-2030644966.png
1532113-20190104214230870-1048777813.png
1532113-20190104214301241-1998550685.png
1532113-20190104214953820-1964232578.png
1532113-20190104215007553-665884677.png
1532113-20190104215110523-1170888144.png
1532113-20190104215306933-646852368.png

1532113-20190104215332923-899269377.png
1532113-20190104215402156-1581027786.png

1532113-20190104215440996-1962942248.png
1532113-20190104215749062-1593138952.png
1532113-20190104220029391-2097091420.png
1532113-20190104220059440-1497977638.png

点触验证码

1532113-20190104220744120-135179650.png
1532113-20190104220759734-2055657853.png
1532113-20190104220833265-1789173441.png

1532113-20190104221038544-1022664263.png

1532113-20190104220914682-95372225.png

1532113-20190104220932284-1234579949.png
https://img2018.cnblogs.com/blog/1532113/201901/1532113-20190104221032832-975337577.png)

宫格验证码

1532113-20190104221317093-861607421.png

1532113-20190104221315599-41523464.png

1532113-20190104221307430-1780757249.png

1532113-20190104221312110-1059236863.png
1532113-20190104221400730-781027827.png

1532113-20190104221416997-1666859535.png

1532113-20190104221423747-512467429.png
1532113-20190104221443890-989067575.png

1532113-20190104221455113-905403735.png

代理的使用

代理的设置

1532113-20190104221831099-1305073201.png
1532113-20190104221859216-1785771550.png
1532113-20190104221927530-555733001.png
1532113-20190104221949550-1600516651.png
1532113-20190104222025410-1183357631.png
1532113-20190104222138221-1782582011.png

1532113-20190104222134431-647820902.png
1532113-20190104222218746-1688701534.png
1532113-20190104222346017-1803028014.png

1532113-20190104222259131-1511384770.png

1532113-20190104222345510-226774038.png

代理池的维护

1532113-20190104222512095-2020127385.png
1532113-20190104222745690-1280762715.png
1532113-20190104222905843-1291431860.png
1532113-20190105205104406-331385669.png
1532113-20190105205113420-1596296710.png
1532113-20190105205121401-393037072.png
1532113-20190105205216528-374715573.png
1532113-20190105205217468-1825292517.png
1532113-20190105205253891-1165711320.png
1532113-20190105205259151-442171054.png
1532113-20190105205312392-1082889105.png
1532113-20190105205337369-958375029.png
1532113-20190105205357449-90759802.png
1532113-20190105205359011-1924419215.png
1532113-20190105205405781-196600586.png
1532113-20190105205626122-1133290164.png
1532113-20190105205833983-1239900322.png
1532113-20190105205922457-1334068061.png
1532113-20190105205930141-8876221.png

模拟登陆

1532113-20190105214629641-2012746039.png
1532113-20190105214633679-133496255.png
1532113-20190105214641596-1543326371.png
1532113-20190105214659923-1224173698.png

cookie池的搭建

1532113-20190105214939375-218932139.png
1532113-20190105215457518-1362688237.png
1532113-20190105215513768-902890645.png
1532113-20190105215526276-688201502.png
1532113-20190105215557148-344052183.png
1532113-20190105215651701-654293772.png
1532113-20190105215654404-823833648.png
1532113-20190105215710172-286934621.png
1532113-20190105215724490-1584000346.png
1532113-20190105215904335-1386846632.png
1532113-20190105215957747-554937278.png
1532113-20190105220012655-411491722.png
1532113-20190105220033564-342987404.png
1532113-20190105220131398-76910170.png
1532113-20190105220220093-1463647175.png
1532113-20190105220241479-435698355.png
1532113-20190105220316473-238336135.png
1532113-20190105220330688-274855803.png

scrapy

1532113-20190106172815699-1052393817.png
1532113-20190106173042496-1487621630.png
1532113-20190106173226820-1059712294.png

scrapy入门

1532113-20190106173400580-1538994658.png
1532113-20190106173552267-996222607.png
1532113-20190106173626311-1313659039.png
1532113-20190106173639451-153639098.png
1532113-20190106173933482-1782752070.png
1532113-20190106190024462-502897639.png
1532113-20190106190244197-488229639.png
1532113-20190106190804522-122802749.png
1532113-20190106190858403-1979765353.png
1532113-20190106191059988-683508244.png
1532113-20190106191250794-1340253736.png
1532113-20190106191344270-1634778763.png
1532113-20190106191439405-828404767.png
1532113-20190106191514626-226036006.png
1532113-20190106191611140-1668061130.png
1532113-20190106200846397-430650546.png
1532113-20190106200922009-1654483773.png
1532113-20190106200935587-127618350.png
1532113-20190106203951181-401556703.png
1532113-20190106204022268-1027654764.png

selector用法

1532113-20190106204403132-1312870829.png
1532113-20190106204724440-228336401.png
1532113-20190106205240869-1966645602.png
1532113-20190106205619768-1898345586.png
1532113-20190106205839634-1577595844.png
1532113-20190106205932963-1036427918.png

设置内容

1532113-20190106211021496-100999303.png
1532113-20190106211141686-1916128224.png

转载于:https://www.cnblogs.com/-hjj/p/10090311.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值