爬虫小练习(2021.09)

最新推荐文章于 2024-08-28 16:14:15 发布

jamsongaaa

最新推荐文章于 2024-08-28 16:14:15 发布

阅读量93

点赞数

分类专栏：爬虫每日练习(个人记录使用) 文章标签： python

本文链接：https://blog.csdn.net/jamsongaaa/article/details/120548878

版权

爬虫每日练习(个人记录使用) 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

爬虫小练习系列,旨在个人练习记录,避免个人对知识的忘却

如果影响了您的浏览体验,我在这里深感抱歉

新浪网简易信息爬虫 (09.24)

博客园首页svg图标爬取(9.30)

新浪网简易信息爬虫 (09.24)

import requests,os,time,lxml.html

start=time.time()

# get html
url='http://blog.sina.com.cn/'
hearder={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
                      'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/'
                      '93.0.4577.82 Safari/537.36'}
cook={'Cookie':'SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9W56ZWpY2kh4UX'
               '-ack41DJX65JpX5KMhUgL.FoqNe0-EeoeNSKB2dJLoI0qLxKqL1Kn'
               'LB-qLxK-L12qLB-qLxKBLBo.L1K5LxK-LBKBLBKMLxKML12-L12zLxK-L1K2L1K5t;'
               ' SCF=Aos5-_L1QuNw3BUSHgTFrkXfKlHMhdEZ-CrPDb1sctPR1OFTU7L6KvAa7'
               'HyrmVdoM-f5dYjJhkHoL9cI6brUxiM.; SUB=_2A25MVh_YDeRhGeBJ6FcT8'
               'i3LzjiIHXVvInYQrDV8PUNbmtAKLRLykW9NRlrvIh9-J1rDwMXvBihW_yWqk'
               'qJhqliw; ALF=1664328458; SSOLoginState=1632792456'}
referer='http://blog.sina.com.cn/'
html=requests.get(url=url,headers=hearder,cookies=cook).content.decode()
print(html)

# select text
var_1=lxml.html.fromstring(html)
name_list=var_1.xpath('//div[@class="left-rec"]/ul/li/a/text()')
print(len(name_list))
print(name_list)

# creat file
os.makedirs('新闻',exist_ok=True)

# save file
for i in range(len(name_list)):
    with open('新闻/1.txt','a')as f:
        f.write(name_list[i])

end=time.time()

print(f'共耗时{end-start}秒')

博客园首页svg图标爬取(9.30)

# 调用模块
import requests,time,lxml.html,os

start=time.time()

# 获取源代码
url='https://www.cnblogs.com/'
html=requests.get(url).content.decode()

# lxml筛选需要的svg信息
var_1=lxml.html.fromstring(html)
icon_list=var_1.xpath('//ul[@class="sidenav"]/li/a/img/@src')

# 创建一个文件夹,准备存储
os.makedirs('icon',exist_ok=True)

# for 循环将链接补充完整,并存储
for i in range(len(icon_list)):
    img_ht='https://www.cnblogs.com/'+icon_list[i]
    img=requests.get(img_ht)
    with open('icon/{}.svg'.format(i),'wb')as f:
        f.write(img.content)

end=time.time()
print(f'共耗时{end-start}秒')

一些思考

这个月做了几次练习,感觉对爬虫的基础部分比较熟悉了

接下来想要学习一些比较深入的内容,比如 selenium 模拟登录,多线程等等

python 确实是比较容易入门的语言,比较吸引我这种门外汉

从9月3日开始学习,不到两周就可以写循环函数爬取图片了,没有跟班,就是看书看文章,感觉,收获还是很大的

后面的时间,我就开始往自动化的方面去探索了,但是每天都会做一些这种小的练习,防止自己的忘却

毕竟是始于兴趣,想想这条路的开始竟然是因为想偷懒,然后接触了按键精灵,接触到了vbs,最后学习了python

9月至此告一段落,10月,继续砥砺前行

jamsongaaa

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫小练习(2021.09)

爬虫小练习系列,旨在个人练习记录,避免个人对知识的忘却如果影响了您的浏览体验,我在这里深感抱歉目录- 09.24 -新浪网简易信息爬虫新浪网简易信息爬虫 (09.24)import requests,os,time,lxml.htmlstart=time.time()# get htmlurl='http://blog.sina.com.cn/'hearder={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; .
复制链接

扫一扫

专栏目录