新手干货 I 3 个Python新手实操项目(附代码!)

 - 点击上方“i小码哥”订阅我吧!-

今天给大家分享三个极实用的Python爬虫案例。

0 1

爬取美图网站

爬取图片是最常见的爬虫入门项目,不复杂却能很好地熟悉Python语法、掌握爬虫思路。当然有两个点要注意:一、不要侵犯版权,二、要注意营养。

思路流程

第一步:获取网址的response,分页内容,解析后提取图集的地址。

第二步:获取网址的response,图集分页,解析后提取图片的下载地址。

第三步:下载图片(也就是获取二进制内容,然后在本地复刻一份)。

部分代码


运行结果


02

爬取微博数据

爬虫的最大功能之一就是整合数据,能弄到更全面的信息,真正做好大数据的分析,在这个数据说话的年代,影响是决定性的。(注意别侵权)

思路流程

1、利用chrome浏览器,获取自己的cookie。

2、获取你要爬取的用户的微博User_id

3、将获得的两项内容填入到weibo.py中,替换代码中的YOUR_USER_ID和#YOUR_COOKIE,运行代码。

部分代码


用wordcloud等软件生成词云,它会根据信息的频率、权重按比列显示关键字的字体大小。

0 3

爬取王者荣耀全套皮肤

怎么获取全套皮肤?用钱买,或者用爬虫爬取下来~虽然后者不能穿。这个案例稍微复杂一点,但是一个非常值得学习的项目。

思路流程

首先进入所有英雄列表,你会看到下图

在这个网页中包含了所有的英雄名称。点击其中一个英雄例如“百里守约”,进去后如下图:

△网址为https://pvp.qq.com/web201605/herodetail/196.shtml

网址中196.shtml以前的字符都是不变的,变化的只是196.shtml。而196是“百里守约”所对应的数字,要想爬取图片就应该进入每个英雄图片所在的网址,而网址的关键就是对应的数字。那么这些数字怎么找呢?

在所有英雄列表中,打开浏览器的开发者工具,刷新,找到一个json格式的文件,如图所示:

这时就会看到所有英雄对应的数字了。在上图所示的Headers中可以找到该json文件对应的网址形式。将其导入Python,把这些数字提取出来,然后模拟出所有英雄的网址即可

小节代码:

#爬取王者荣耀英雄图片
#导入所需模块

import requests
import re
import os

#导入json文件(里面有所有英雄的名字及数字)

url= http://pvp.qq.com/web201605/js/herolist.json  #英雄的名字json

head={ User-Agent : 换成你自己的head }
html = requests.get(url,headers = head)
html=requests.get(url)
html_json=html.json()

#提取英雄名字和数字

hero_name=list(map(lambda x:x[ cname ],html_json)) #名字
hero_number=list(map(lambda x:x[ ename ],html_json)) #数字

下载图片

现在可以进入所有英雄的网址并爬取网址下的图片了。进入一个英雄的网址,打开开发者工具,在NetWork下刷新并找到英雄的皮肤图片。如图所示:


然后在Headers中查看该图片的网址。会发现皮肤图片是有规律的。我们可以用这样的方式来模拟图片网址

http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/'+str(v)+'/'+str(v)+'-bigskin-'+str(u)+'.jpg ,

在该网址中只有str(v)与str(u)是改变的(str( )是Python中的一个函数),str(v)是英雄对应的数字,str(u)只是图片编号,例如第一个图片就是1,第二个就是2,第三个……而一个英雄的皮肤应该不会超过12个(可以将这个值调到20等)。接着就是下载了。

下载代码:

执行完上面的代码后只需要执行main函数就行了

爬取下来的图片是这样,每个文件夹里面是该英雄对应的图片,如下图:

End.

来源:CSDN

零基础学 Python,来这里

只需7天时间,跨进Python编程大门,已有3800+加入

【基础】0基础入门python,24小时有人快速解答问题;
【提高】40多个项目实战,老手可以从真实场景中学习python;
【直播】不定期直播项目案例讲解,手把手教你如何分析项目;
【分享】优质python学习资料分享,让你在最短时间获得有价值的学习资源;圈友优质资料或学习分享,会不时给予赞赏支持,希望每个优质圈友既能赚回加入费用,也能快速成长,并享受分享与帮助他人的乐趣。
【人脉】收获一群志同道合的朋友,并且都是python从业者
【价格】本着布道思想,只需 69元 加入一个能保证学习效果的良心圈子。

【赠予】后续圈主将开发python,0基础入门在线课程,免费送给圈友们,供巩固和系统化复习

(三重福利)最近入圈送大礼包:

1、2.7G、308份最新数据分析报告
2、40G 人工智能算法  视频课
3、Python爬虫课,共14课


更多精彩

在公众号后台对话框输入以下关键词

查看更多优质内容!

PM2.5 | 世界杯 | 惊喜 | 附书代码

觉得不错,请把这篇文章分享给你的朋友

转载 / 投稿请联系:data_circle_yoni

● 总结 Python 的4张超大思维导图,一定不要错过哦

● 知乎13万赞!为何很多名校毕业生,都输在了人生后半程

● 【连载】小白轻松学Python ---- 到底如何入门  Python?

● 怎么才能自学成 Python 大牛?这有些建议

● Python打牢基础,从22个语法开始!

● 手把手 | 爬取京东评论,且修改网址直接可复用哦(送代码)

● 为何“Python 之父” 力荐的小蓝书火了?

● Python实战 | 只需 ”三步“ 爬取二手iphone手机信息(转发送源码)

● 做数据分析不得不看的书有哪些?

● Python实战 | 手把手教你爬取豆瓣电影 Top 250(附全部代码)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值