爬虫小练习系列,旨在个人练习记录,避免个人对知识的忘却
如果影响了您的浏览体验,我在这里深感抱歉
目录
新浪网简易信息爬虫 (09.24)
import requests,os,time,lxml.html
start=time.time()
# get html
url='http://blog.sina.com.cn/'
hearder={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/'
'93.0.4577.82 Safari/537.36'}
cook={'Cookie':'SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9W56ZWpY2kh4UX'
'-ack41DJX65JpX5KMhUgL.FoqNe0-EeoeNSKB2dJLoI0qLxKqL1Kn'
'LB-qLxK-L12qLB-qLxKBLBo.L1K5LxK-LBKBLBKMLxKML12-L12zLxK-L1K2L1K5t;'
' SCF=Aos5-_L1QuNw3BUSHgTFrkXfKlHMhdEZ-CrPDb1sctPR1OFTU7L6KvAa7'
'HyrmVdoM-f5dYjJhkHoL9cI6brUxiM.; SUB=_2A25MVh_YDeRhGeBJ6FcT8'
'i3LzjiIHXVvInYQrDV8PUNbmtAKLRLykW9NRlrvIh9-J1rDwMXvBihW_yWqk'
'qJhqliw; ALF=1664328458; SSOLoginState=1632792456'}
referer='http://blog.sina.com.cn/'
html=requests.get(url=url,headers=hearder,cookies=cook).content.decode()
print(html)
# select text
var_1=lxml.html.fromstring(html)
name_list=var_1.xpath('//div[@class="left-rec"]/ul/li/a/text()')
print(len(name_list))
print(name_list)
# creat file
os.makedirs('新闻',exist_ok=True)
# save file
for i in range(len(name_list)):
with open('新闻/1.txt','a')as f:
f.write(name_list[i])
end=time.time()
print(f'共耗时{end-start}秒')
博客园首页svg图标爬取(9.30)
# 调用模块
import requests,time,lxml.html,os
start=time.time()
# 获取源代码
url='https://www.cnblogs.com/'
html=requests.get(url).content.decode()
# lxml筛选需要的svg信息
var_1=lxml.html.fromstring(html)
icon_list=var_1.xpath('//ul[@class="sidenav"]/li/a/img/@src')
# 创建一个文件夹,准备存储
os.makedirs('icon',exist_ok=True)
# for 循环将链接补充完整,并存储
for i in range(len(icon_list)):
img_ht='https://www.cnblogs.com/'+icon_list[i]
img=requests.get(img_ht)
with open('icon/{}.svg'.format(i),'wb')as f:
f.write(img.content)
end=time.time()
print(f'共耗时{end-start}秒')
一些思考
这个月做了几次练习,感觉对爬虫的基础部分比较熟悉了
接下来想要学习一些比较深入的内容,比如 selenium 模拟登录,多线程等等
python 确实是比较容易入门的语言,比较吸引我这种门外汉
从9月3日开始学习,不到两周就可以写循环函数爬取图片了,没有跟班,就是看书看文章,感觉,收获还是很大的
后面的时间,我就开始往自动化的方面去探索了,但是每天都会做一些这种小的练习,防止自己的忘却
-
毕竟是始于兴趣,想想这条路的开始竟然是因为想偷懒,然后接触了按键精灵,接触到了vbs,最后学习了python
9月至此告一段落,10月,继续砥砺前行