爬虫小练习(2021.09)

爬虫小练习系列,旨在个人练习记录,避免个人对知识的忘却

如果影响了您的浏览体验,我在这里深感抱歉

目录

新浪网简易信息爬虫 (09.24) 

博客园首页svg图标爬取(9.30)


新浪网简易信息爬虫 (09.24) 

import requests,os,time,lxml.html

start=time.time()

# get html
url='http://blog.sina.com.cn/'
hearder={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
                      'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/'
                      '93.0.4577.82 Safari/537.36'}
cook={'Cookie':'SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9W56ZWpY2kh4UX'
               '-ack41DJX65JpX5KMhUgL.FoqNe0-EeoeNSKB2dJLoI0qLxKqL1Kn'
               'LB-qLxK-L12qLB-qLxKBLBo.L1K5LxK-LBKBLBKMLxKML12-L12zLxK-L1K2L1K5t;'
               ' SCF=Aos5-_L1QuNw3BUSHgTFrkXfKlHMhdEZ-CrPDb1sctPR1OFTU7L6KvAa7'
               'HyrmVdoM-f5dYjJhkHoL9cI6brUxiM.; SUB=_2A25MVh_YDeRhGeBJ6FcT8'
               'i3LzjiIHXVvInYQrDV8PUNbmtAKLRLykW9NRlrvIh9-J1rDwMXvBihW_yWqk'
               'qJhqliw; ALF=1664328458; SSOLoginState=1632792456'}
referer='http://blog.sina.com.cn/'
html=requests.get(url=url,headers=hearder,cookies=cook).content.decode()
print(html)

# select text
var_1=lxml.html.fromstring(html)
name_list=var_1.xpath('//div[@class="left-rec"]/ul/li/a/text()')
print(len(name_list))
print(name_list)

# creat file
os.makedirs('新闻',exist_ok=True)

# save file
for i in range(len(name_list)):
    with open('新闻/1.txt','a')as f:
        f.write(name_list[i])

end=time.time()

print(f'共耗时{end-start}秒')

博客园首页svg图标爬取(9.30)

# 调用模块
import requests,time,lxml.html,os

start=time.time()

# 获取源代码
url='https://www.cnblogs.com/'
html=requests.get(url).content.decode()

# lxml筛选需要的svg信息
var_1=lxml.html.fromstring(html)
icon_list=var_1.xpath('//ul[@class="sidenav"]/li/a/img/@src')

# 创建一个文件夹,准备存储
os.makedirs('icon',exist_ok=True)

# for 循环将链接补充完整,并存储
for i in range(len(icon_list)):
    img_ht='https://www.cnblogs.com/'+icon_list[i]
    img=requests.get(img_ht)
    with open('icon/{}.svg'.format(i),'wb')as f:
        f.write(img.content)

end=time.time()
print(f'共耗时{end-start}秒')

一些思考

这个月做了几次练习,感觉对爬虫的基础部分比较熟悉了

接下来想要学习一些比较深入的内容,比如 selenium 模拟登录,多线程等等

python 确实是比较容易入门的语言,比较吸引我这种门外汉

从9月3日开始学习,不到两周就可以写循环函数爬取图片了,没有跟班,就是看书看文章,感觉,收获还是很大的

后面的时间,我就开始往自动化的方面去探索了,但是每天都会做一些这种小的练习,防止自己的忘却

-

毕竟是始于兴趣,想想这条路的开始竟然是因为想偷懒,然后接触了按键精灵,接触到了vbs,最后学习了python 

9月至此告一段落,10月,继续砥砺前行

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值