python爬虫-模拟登陆新浪微+博爬取感兴趣人的所有信息,mysql面试题

先自我介绍一下,小编浙江大学毕业,去过华为、字节跳动等大厂,目前阿里P7

深知大多数程序员,想要提升技能,往往是自己摸索成长,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年最新Python全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
img
img



既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上Python知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

如果你需要这些资料,可以添加V获取:vip1024c (备注Python)
img

正文

for message in messages:

title = message.find_all(“span”,class_=“S_txt2”)[0].text

content = message.find_all(“strong”,class_=“W_f16”)[0].text

user[title] = content

print(user)

return user

def getweibo(filename,html):

‘’’

获取一个页面上的所有信息,包括每一条微博的内容,转发,评论,点赞数量 ‘’’ file = open(filename,“a”,encoding=“utf-8”)

beautifulsoup = bs4.BeautifulSoup(html,“lxml”)

weibos = beautifulsoup.find_all(“div”,class_="WB_cardwrap WB_feed_type S_bg2 ") #获得用于显示微博的父节点

weibonum = 0 #计算该页微博数量

for weibo in weibos:

#对每一个微博父节点进行处理

weibotext = weibo.find_all(“div”,class_ = “WB_text W_f14”) #获取微博文本内容

message = weibotext[0].text.replace(" ",“”) #取出文本中的所有空格

weibonum+=1 #微博数量+1

file.write(\n第”+str(weibonum)+“条微博内容是:”+message+\n)

weibopics = weibo.find_all(“div”,class_=“WB_media_wrap clearfix”) #获取用于显示图片的标签

if len(weibopics) != 0: #判断标签是否存在

pics = weibopics[0].find_all(“img”) #获取该标签中的所有图片

for pic in pics:

file.write(pic[“src”]+\n)

weibomessages = weibo.find_all(“div”, class_=“WB_feed_handle”) # 获取微博信息父节点

weibomessagecontents = weibomessages[0].find_all(“a”, class_=“S_txt2”) #获取用于显示微博信息的节点(包括转发,评论,点赞数量)

for weibomessagecontent in weibomessagecontents[1:]: #分别获取信息

contents = weibomessagecontent.find_all(“em”)

file.write(contents[1].text+" ")

file.close()

print(“成功存储一个页面的微博”)

return weibonum

def getpageurl(url,num):

‘’’

根据一个用户的第一页获取后续的url http://www.weibo.com/u/1858002662?c=spr_sinamkt_buy_hyww_weibo_p113&is_hot=1#1496336038914 http://www.weibo.com/u/1858002662?is_search=0&visible=0&is_hot=1&is_tag=0&profile_ftype=1&page=2#feedtop

http://weibo.com/leehom?refer_flag=1005055013_&is_all=1 http://weibo.com/leehom?is_search=0&visible=0&is_all=1&is_tag=0&profile_ftype=1&page=2#feedtop 通过分析指导,page应该是表示的页面,is_all和is_hot应该对应的是热门微博和全部微博 ‘’’ preurl = url.split(“?”)

preurl = preurl[0]

pageurl = preurl+“?is_search=0&visible=0&is_all=1&is_tag=0&profile_ftype=1&page=”+str(num)+“#feedtop”

return pageurl

def spider(url,username,password):

num = 0;

browser = login(“http://weibo.com/login.php”,username,password)

print(“开始获取第1页的微博”)

html = getweibohtml(browser,url)

file = open(“f:****\\****xuanzi.txt”,“a”,encoding=“utf-8”)

user = getusermessage(html)

for key in user.keys():

file.write(key+“:”+user[key]+\n)

file.close()

num += getweibo(“f:****\\****xuanzi.txt”,html)

print(“获取第1页的微博成功”)

page = 1;

while True:

page+=1

pageurl = getpageurl(url,page)

print(pageurl)

html = getweibohtml(browser, pageurl)

if has_source(html):

print(“开始获取第”+str(page)+“页的微博”)

num += getweibo(“f:****\\****xuanzi.txt”,html)

else:

return

return num

if __name__ ==“__main__”:

#browser = login(“http://weibo.com/login.php”,“15271183269”,“f43312626”)

‘’’

for cookie in cookies: if cookie[“name”] == “_s_tentry”: log_cookie = cookie break ‘’’ ‘’’ getweibohtml(“http://www.weibo.com/u/1858002662?is_search=0&visible=0&is_tag=0&profile_ftype=1&page=3&c=spr_sinamkt_buy_hyww_weibo_t113&is_all=1”, browser) ‘’’ #print(has_source(browser,“http://www.weibo.com/u/1858002662?is_search=0&visible=0&is_tag=0&profile_ftype=1&page=21&c=spr_sinamkt_buy_hyww_weibo_t113&is_all=1”))

#file = open(“f:\\test5.html”,“rb”).read() #html = file.decode(“utf-8”,“ignore”) #getweibo(html)

#url = getpageurl(“http://weibo.com/dasima315?sudaref=passport.weibo.com&is_all=1”, 4) #print(url) #num = spider(“http://www.weibo.com/u/1858002662?c=spr_sinamkt_buy_hyww_weibo_p113&is_hot=1”, “15271183269”, “f43312626”) #print(“一共获取”+str(num)+“条微博”)

spider(“http://www.weibo.com/u/1858002662?c=spr_sinamkt_buy_hyww_weibo_p113&is_hot=1”,“15271183269”,“f43312626”)

轩子局二兔的微博一共有21页,932条,以下是一部分爬取到的文件内容

姓名:轩子巨2兔

头像:http://tvax3.sinaimg.cn/crop.9.0.493.493.180/6ebedee6ly8ffq59vzv9qj20e80dpaag.jpg

认证:斗鱼直播平台签约主播

关注:293

粉丝:503619

微博:932

第1条微博内容是:

庆祝微博40万关注转发这条骚气的微博,抽5人送出100元红包加一段私人定制音频​​​​

http://wx3.sinaimg.cn/orj360/6ebedee6gy1feecnoofjvg20ap07ikjr.gif

4333  1810  3644

第2条微博内容是:

来斗鱼快两个月了,昨夜斗鱼粉丝破了100万。黑粉很失望,他们竭尽全力却无法阻止。不膨胀,继续努力做好声音!为回馈百万轩子大军,抽5人送出100元红包和一段专属音频,转发即可,截止至3月25日24点。​​​​

http://wx2.sinaimg.cn/thumb150/6ebedee6gy1fdve8bakcpj20sf0kuara.jpg

http://wx1.sinaimg.cn/thumb150/6ebedee6gy1fdve8jbtjwj20sf0kudz7.jpg

4431  1768  3184

第3条微博内容是:

“不知尬舞”​​​​

http://wx2.sinaimg.cn/thumb150/6ebedee6gy1fdir07mn9jj21kw23ungz.jpg

http://wx3.sinaimg.cn/thumb150/6ebedee6gy1fdir0akk9vj21kw22ekad.jpg

http://wx2.sinaimg.cn/thumb150/6ebedee6gy1fdir0ca1xaj21kw23ugzt.jpg

http://wx1.sinaimg.cn/thumb150/6ebedee6gy1fdir03x5dhj20k00ci77i.jpg

256  1281  5533

第4条微博内容是:

这次斗鱼的美食节目因故取消了,但不影响真爱粉的福利。转发抽5人送100网费​​​​

http://wx2.sinaimg.cn/thumb150/6ebedee6gy1ff8qkcg02sj21be0qodn4.jpg

http://wx2.sinaimg.cn/thumb150/6ebedee6gy1ff8qkfkf19j21be0qo47a.jpg

http://wx2.sinaimg.cn/thumb150/6ebedee6gy1ff8qkk6zojj20qo1bedna.jpg

http://wx2.sinaimg.cn/thumb150/6ebedee6gy1ff8qky81l8j20qo1be10q.jpg

http://wx1.sinaimg.cn/thumb150/6ebedee6gy1ff8qkh1k32j21be0qoaiu.jpg

http://wx4.sinaimg.cn/thumb150/6ebedee6gy1ff8qllalw1j222o160njp.jpg

http://wx3.sinaimg.cn/thumb150/6ebedee6gy1ff8qkil677j21be0qoqb6.jpg

http://wx2.sinaimg.cn/thumb150/6ebedee6gy1ff8qkwcdmej21be0qojy6.jpg

http://wx1.sinaimg.cn/thumb150/6ebedee6gy1ff8qlb89d1j216022ox1n.jpg

1929  1118  3457

第5条微博内容是:

小二,上硬菜​​​​

http://wx2.sinaimg.cn/thumb150/6ebedee6ly1ff78nnsqp8j20fa0r8amd.jpg

http://wx4.sinaimg.cn/thumb150/6ebedee6ly1ff78np27tqj20fg0r8gzm.jpg

http://wx1.sinaimg.cn/thumb150/6ebedee6ly1ff78nqthtzj20pz1ai7wh.jpg

http://wx4.sinaimg.cn/thumb150/6ebedee6ly1ff78ns0smvj20fe0r8k4l.jpg

http://wx3.sinaimg.cn/thumb150/6ebedee6ly1ff78nt7qxvj20fb0r87ij.jpg

http://wx3.sinaimg.cn/thumb150/6ebedee6ly1ff78nulu72j20kl0yk4j8.jpg

815  1372  4269

第6条微博内容是:

我是俏皮猫女郎​​​​

http://wx1.sinaimg.cn/thumb150/6ebedee6ly1ffn14hn37qj21w02ioqv5.jpg

http://wx3.sinaimg.cn/thumb150/6ebedee6ly1ffn14mcya9j21w02ioqv5.jpg

http://wx4.sinaimg.cn/thumb150/6ebedee6ly1ffn14qb0fjj21w02ioe81.jpg

http://wx4.sinaimg.cn/thumb150/6ebedee6ly1ffn14u8jluj22io1w0b29.jpg

http://wx4.sinaimg.cn/thumb150/6ebedee6ly1ffn14y0q7fj22io1w0b29.jpg

413  1179  4193

第7条微博内容是:

不知火舞第二弹。(小剧场剧本、情感问题征稿,邮箱191625304@qq.com)​​​​

http://wx3.sinaimg.cn/thumb150/6ebedee6gy1fdt5ta5tusj20xr190wmf.jpg

http://wx1.sinaimg.cn/thumb150/6ebedee6gy1fdt5tch8qmj20xr190aib.jpg

207  1265  4124

第8条微博内容是:

王者荣耀.妲己cos第一弹​​​​

http://wx3.sinaimg.cn/thumb150/6ebedee6gy1fe1a9fiwnnj21w02ionpl.jpg

http://wx3.sinaimg.cn/thumb150/6ebedee6gy1fe1a8xn3zpj20qo0zk0yk.jpg

http://wx1.sinaimg.cn/thumb150/6ebedee6gy1fe1a9hc60oj20zk0qote9.jpg

159  936  3684

第9条微博内容是:

包子可爱吗​​​​

http://wx4.sinaimg.cn/thumb150/6ebedee6ly1ff08cqq6upj216022o1kx.jpg

http://wx3.sinaimg.cn/thumb150/6ebedee6ly1ff08crpnw0j216022onnv.jpg

http://wx1.sinaimg.cn/thumb150/6ebedee6ly1ff08czm47oj23402c0b2e.jpg

75  1079  3008

第10条微博内容是:

妲己第二弹愚人节快乐!​​​​

http://wx1.sinaimg.cn/thumb150/6ebedee6ly1fe6iuhxa24j20qo0zk0yl.jpg

http://wx4.sinaimg.cn/thumb150/6ebedee6ly1fe6iu4w2u3j21w02iox6v.jpg

http://wx4.sinaimg.cn/thumb150/6ebedee6ly1fe6itjy35tj20pm0zkwgv.jpg

92  627  3175

第11条微博内容是:

上海的小伙伴猜猜我在哪​​​​

一、Python所有方向的学习路线

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。

img
img

二、Python必备开发工具

工具都帮大家整理好了,安装就可直接上手!img

三、最新Python学习笔记

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。

img

四、Python视频合集

观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

img

五、实战案例

纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。img

六、面试宝典

在这里插入图片描述

在这里插入图片描述

简历模板在这里插入图片描述

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化的资料的朋友,可以添加V获取:vip1024c (备注python)
img

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
ad39.png)

简历模板在这里插入图片描述

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化的资料的朋友,可以添加V获取:vip1024c (备注python)
[外链图片转存中…(img-N3Pk1q8d-1713176300953)]

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值