教你爬取博客之星排行榜(selenium + requests )

本文链接：https://blog.csdn.net/su_zhen_hua/article/details/112599768

爬取博客之星

要爬取的页面及链接

https://bss.csdn.net/m/topic/blog_star2020

在这里插入图片描述

第一种方法(selenium)

爬虫使用的是selenium，插件工具使用的是xpath_helper。

使用xpath定位元素

在这里插入图片描述

完整代码

from selenium import webdriver
driver = webdriver.Chrome()
driver.implicitly_wait(10)  # 等待页面元素加载完毕再开始爬取
url = "https://bss.csdn.net/m/topic/blog_star2020"
driver.get(url)
indexs = driver.find_elements_by_xpath('//*[@id="blogList"]/li/a/span')                 #博主投票序号
names = driver.find_elements_by_xpath('//*[@id="blogList"]/li/a/div[2]')                #博主名称
numbers = driver.find_elements_by_xpath('//*[@id="blogList"]/li/a/div[4]/p[2]/em')     	#博主票数
urls = driver.find_elements_by_xpath('//*[@id="blogList"]/li/a')                        #投票链接

data = []
for i in range(len(indexs)):
    d = {}
    d['index'] = indexs[i].text					# text取出文本内容
    d['name'] = names[i].text
    d['number'] = int(numbers[i].text)
    d['url'] = urls[i].get_attribute('href')	# 取出a标签的href链接
    data.append(d)

data = sorted(data,key=lambda x: x['number'],reverse=True)		 # 对票数进行排序

# 将tr td添加到每条记录
ii = 0
for i in dataSort:
    ii += 1
    print("<tr>")
    print("<td>{}</td>".format(ii))                                     # 名次
    print("<td>{}</td>".format(i['name']))                              # 博主
    print("<td>{}</td>".format(i['index']))                             # 投票序号
    print("<td>{}</td>".format(i['number']))                            # 得票数量
    print("<td><a href='{}'>{}</a></td>".format(i['url'],i['url']))     # 投票地址
    print("</tr>")
driver.close()		# 关闭浏览器

输出效果(内容较多 只复制前三)：
<tr>
<td>1</td>
<td>Hollis在csdn</td>
<td>070</td>
<td>3893</td>
<td><a href='https://bss.csdn.net/m/topic/blog_star2020/detail?username=hollis_chuang'>https://bss.csdn.net/m/topic/blog_star2020/detail?username=hollis_chuang</a></td>
</tr>
<tr>
<td>2</td>
<td>帅地</td>
<td>124</td>
<td>3454</td>
<td><a href='https://bss.csdn.net/m/topic/blog_star2020/detail?username=m0_37907797'>https://bss.csdn.net/m/topic/blog_star2020/detail?username=m0_37907797</a></td>
</tr>
<tr>
<td>3</td>
<td>敖 丙</td>
<td>014</td>
<td>3300</td>
<td><a href='https://bss.csdn.net/m/topic/blog_star2020/detail?username=qq_35190492'>https://bss.csdn.net/m/topic/blog_star2020/detail?username=qq_35190492</a></td>
</tr>

第二种方法(requests)

请求数据

点击查看大图
在这里插入图片描述

完整代码

import requests 	# 如果没有requests 包 直接pip install requests 安装

#  请求地址
url = 'https://bss.csdn.net/m/topic/blog_star2020/getUsers'		
#  请求头
headers = {'user-agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.108 Mobile Safari/537.36'}
#  要传的参数
data = {'number': ''}
response = requests.post(url,headers,data)
data = json.loads(response.text)['data']
data = sorted(data,key=lambda x:x['vote_num'],reverse=True)
dataCsdn=list()
j=0
for i in data:
    j+=1
    d = {}
    d['名次'] = j
    d['博主']=i['nick_name']
    d['票数']=i['vote_num']
    d['投票地址']=i['url']
    d['投票序号']=i['number']
    d['博客等级']=i['level']
    d['码龄']=i['codeLevel']
    d['原创']=i['brief']
    dataCsdn.append(d)
    

""" 解释 """
#  post请求
ret = requests.post(url,headers,data)
print(ret) # 输出：<Response [200]>(请求成功，返回200)

print(ret.text)
# 输出(内容太长，复制部分)：
'\n{"code":200,"msg":"ok","data":[{"id":"3260","title":"qq_26525215","vote_num":2263,"url":"https:\\/\\/bss.csdn.net\\/m\\/topic\\/blog_star2020\\/detail?username=qq_26525215","img":"","brief":"166","class_id":"95","logs":true,"level":8,"codeLevel":6,"nick_name":"\\u8c19\\u5fc6","avatar":"https:\\/\\/profile.csdnimg.cn\\/F\\/7\\/6\\/1_qq_26525215","article_count":166,"nameWords":null,"number":"001"}]}

#  使用json.loads将数据转回原类型
print(json.loads(ret.text))
#  输出(得票字段vote_num， 博主字段nick_name， 原创文章字段brief，码龄字段codeLevel，投票地址字段url，序号字段number 等等)：	
{'data': [{'article_count': 166,
   'avatar': 'https://profile.csdnimg.cn/F/7/6/1_qq_26525215',
   'brief': '166',
   'class_id': '95',
   'codeLevel': 6,
   'id': '3260',
   'img': '',
   'level': 8,
   'logs': True,
   'nameWords': None,
   'nick_name': '谙忆',
   'number': '001',
   'title': 'qq_26525215',
   'url': 'https://bss.csdn.net/m/topic/blog_star2020/detail?username=qq_26525215',
   'vote_num': 2263}]}

内容粘贴

在这里插入图片描述

排行榜

更新时间 1-25 投票已截至

排行	博主	序号	票数	投票
1	敖丙	12	10275	https://bss.csdn.net/m/topic/blog_star2020/detail?username=qq_35190492
2	谷哥的小弟	61	7856	https://bss.csdn.net/m/topic/blog_star2020/detail?username=lfdfhl
3	帅地	132	6791	https://bss.csdn.net/m/topic/blog_star2020/detail?username=m0_37907797
4	沉默王二	27	6293	https://bss.csdn.net/m/topic/blog_star2020/detail?username=qing_gee
5	Hollis在csdn	64	6182	https://bss.csdn.net/m/topic/blog_star2020/detail?username=hollis_chuang
6	小傅哥	173	5962	https://bss.csdn.net/m/topic/blog_star2020/detail?username=yao__shun__yu
7	一个处女座的程序猿	180	5652	https://bss.csdn.net/m/topic/blog_star2020/detail?username=qq_41185868
8	李锐博恩	94	5640	https://bss.csdn.net/m/topic/blog_star2020/detail?username=reborn_lee
9	小林coding	177	5572	https://bss.csdn.net/m/topic/blog_star2020/detail?username=qq_34827674
10	ThinkWon	143	5515	https://bss.csdn.net/m/topic/blog_star2020/detail?username=thinkwon
11	谙忆	1	5283	https://bss.csdn.net/m/topic/blog_star2020/detail?username=qq_26525215
12	中间件兴趣圈	193	5215	https://bss.csdn.net/m/topic/blog_star2020/detail?username=prestigeding
13	1_bit	182	5165	https://bss.csdn.net/m/topic/blog_star2020/detail?username=a757291228
14	qq2648008726	117	4712	https://bss.csdn.net/m/topic/blog_star2020/detail?username=u012325865
15	Jack-Cui	77	4670	https://bss.csdn.net/m/topic/blog_star2020/detail?username=c406495762
16	第三女神程忆难	51	4615	https://bss.csdn.net/m/topic/blog_star2020/detail?username=qq_40881680
17	TrueDei	138	4612	https://bss.csdn.net/m/topic/blog_star2020/detail?username=qq_17623363
18	lovelife110	89	4383	https://bss.csdn.net/m/topic/blog_star2020/detail?username=qq_33873431
19	LaoYuanPython	93	4310	https://bss.csdn.net/m/topic/blog_star2020/detail?username=laoyuanpython
20	单片机菜鸟哥	49	4242	https://bss.csdn.net/m/topic/blog_star2020/detail?username=dpjcn1990
21	程序猿小亮	45	3728	https://bss.csdn.net/m/topic/blog_star2020/detail?username=jiuqiyuliang
22	柔若寒	121	3244	https://bss.csdn.net/m/topic/blog_star2020/detail?username=qq_19734597
23	小山猪的沙塔	160	2673	https://bss.csdn.net/m/topic/blog_star2020/detail?username=u012039040
24	ReCclay	120	2649	https://bss.csdn.net/m/topic/blog_star2020/detail?username=recclay
25	艺博东	183	2546	https://bss.csdn.net/m/topic/blog_star2020/detail?username=hyd696
26	JasonLee\'blog	78	1771	https://bss.csdn.net/m/topic/blog_star2020/detail?username=xianpanjia4616
27	Alice菌	7	1687	https://bss.csdn.net/m/topic/blog_star2020/detail?username=weixin_44318830
28	记得诚	79	1343	https://bss.csdn.net/m/topic/blog_star2020/detail?username=albert992
29	公众号-JavaEdge	60	1329	https://bss.csdn.net/m/topic/blog_star2020/detail?username=qq_33589510
30	小麦大叔	163	1286	https://bss.csdn.net/m/topic/blog_star2020/detail?username=u010632165
31	carl-zhao	37	1171	https://bss.csdn.net/m/topic/blog_star2020/detail?username=u012410733
32	牧小农	99	1158	https://bss.csdn.net/m/topic/blog_star2020/detail?username=qq_14996421
33	考古学家lx	84	1084	https://bss.csdn.net/m/topic/blog_star2020/detail?username=weixin_43582101
34	riemann_	119	1051	https://bss.csdn.net/m/topic/blog_star2020/detail?username=riemann_
35	Engineer-Bruce_Yang	54	1048	https://bss.csdn.net/m/topic/blog_star2020/detail?username=morixinguan
36	herosunly	70	981	https://bss.csdn.net/m/topic/blog_star2020/detail?username=herosunly
37	SoWhat1412	129	969	https://bss.csdn.net/m/topic/blog_star2020/detail?username=qq_31821675
38	许进进	164	963	https://bss.csdn.net/m/topic/blog_star2020/detail?username=lucasxu01
39	Data-Mining	52	947	https://bss.csdn.net/m/topic/blog_star2020/detail?username=liuzehn
40	刘炫320	97	926	https://bss.csdn.net/m/topic/blog_star2020/detail?username=qq_35082030
41	AI 菌	6	913	https://bss.csdn.net/m/topic/blog_star2020/detail?username=wjinjie
42	刘一哥GIS	95	906	https://bss.csdn.net/m/topic/blog_star2020/detail?username=lucky51222
43	梦想橡皮擦	103	889	https://bss.csdn.net/m/topic/blog_star2020/detail?username=hihell
44	cutercorley	38	887	https://bss.csdn.net/m/topic/blog_star2020/detail?username=cufeecr
45	webmote	149	864	https://bss.csdn.net/m/topic/blog_star2020/detail?username=webmote
46	Bubbliiiing	23	863	https://bss.csdn.net/m/topic/blog_star2020/detail?username=weixin_44791964
47	江南、董少	76	852	https://bss.csdn.net/m/topic/blog_star2020/detail?username=qq_41453285
48	xcbeyond	178	848	https://bss.csdn.net/m/topic/blog_star2020/detail?username=xcbeyond
49	xindoo	166	843	https://bss.csdn.net/m/topic/blog_star2020/detail?username=xindoo
50	象在舞	161	839	https://bss.csdn.net/m/topic/blog_star2020/detail?username=gdkyxy2013
51	ZhuJiangs	191	833	https://bss.csdn.net/m/topic/blog_star2020/detail?username=haojiagou
52	白玉梁	16	793	https://bss.csdn.net/m/topic/blog_star2020/detail?username=baiyuliang2013
53	ztenv	196	679	https://bss.csdn.net/m/topic/blog_star2020/detail?username=lianshaohua
54	xiangzhihong8	171	639	https://bss.csdn.net/m/topic/blog_star2020/detail?username=xiangzhihong8
55	源码兴趣圈	187	628	https://bss.csdn.net/m/topic/blog_star2020/detail?username=qq_37781649
56	一颗小树x	181	625	https://bss.csdn.net/m/topic/blog_star2020/detail?username=qq_41204464
57	刘早起	88	620	https://bss.csdn.net/m/topic/blog_star2020/detail?username=weixin_41846769
58	小王曾是少年	157	600	https://bss.csdn.net/m/topic/blog_star2020/detail?username=hnu_csee_wjw
59	雪松研究所	165	598	https://bss.csdn.net/m/topic/blog_star2020/detail?username=qq_33487044
60	恬静的小魔龙	134	585	https://bss.csdn.net/m/topic/blog_star2020/detail?username=q764424567
61	小小鱼儿小小林	175	583	https://bss.csdn.net/m/topic/blog_star2020/detail?username=qq_27471405
62	满天星._	104	560	https://bss.csdn.net/m/topic/blog_star2020/detail?username=qq_32146369
63	L-Java	87	556	https://bss.csdn.net/m/topic/blog_star2020/detail?username=weixin_43767015
64	段智华	50	540	https://bss.csdn.net/m/topic/blog_star2020/detail?username=duan_zhihua
65	三钻	126	540	https://bss.csdn.net/m/topic/blog_star2020/detail?username=tridiamond6
66	技术大咖秀	73	519	https://bss.csdn.net/m/topic/blog_star2020/detail?username=shipfei_csdn
67	王义凯_Rick	153	512	https://bss.csdn.net/m/topic/blog_star2020/detail?username=wsdc0521
68	花狗Fdog_	65	507	https://bss.csdn.net/m/topic/blog_star2020/detail?username=fdog_
69	灰小猿	62	485	https://bss.csdn.net/m/topic/blog_star2020/detail?username=weixin_44985880
70	Winter_world	154	483	https://bss.csdn.net/m/topic/blog_star2020/detail?username=w464960660
71	TRHX • 鲍勃	140	447	https://bss.csdn.net/m/topic/blog_star2020/detail?username=qq_36759224
72	善良勤劳勇敢而又聪明的老杨	125	445	https://bss.csdn.net/m/topic/blog_star2020/detail?username=yy339452689
73	_陈哈哈	200	439	https://bss.csdn.net/m/topic/blog_star2020/detail?username=qq_39390545
74	小宋是呢	158	419	https://bss.csdn.net/m/topic/blog_star2020/detail?username=xiaosongshine
75	nineheaded_bird	109	412	https://bss.csdn.net/m/topic/blog_star2020/detail?username=tengweitw
76	程序员cxuan	34	407	https://bss.csdn.net/m/topic/blog_star2020/detail?username=qq_36894974
77	向彪-blockchain	174	398	https://bss.csdn.net/m/topic/blog_star2020/detail?username=ws327443752
78	✎ℳ๓₯㎕...雲淡風輕	2	392	https://bss.csdn.net/m/topic/blog_star2020/detail?username=qq_34361283
79	Heartsuit	66	389	https://bss.csdn.net/m/topic/blog_star2020/detail?username=u013810234
80	Albert Yang	9	385	https://bss.csdn.net/m/topic/blog_star2020/detail?username=qq_23853743
81	阿华田512	11	376	https://bss.csdn.net/m/topic/blog_star2020/detail?username=aa518189
82	Trent1985	142	376	https://bss.csdn.net/m/topic/blog_star2020/detail?username=trent1985
83	科皮子菊	86	365	https://bss.csdn.net/m/topic/blog_star2020/detail?username=meiqi0538
84	_江南一点雨	199	363	https://bss.csdn.net/m/topic/blog_star2020/detail?username=u012702547
85	Charzous	41	362	https://bss.csdn.net/m/topic/blog_star2020/detail?username=charzous
86	bigbirdit	21	353	https://bss.csdn.net/m/topic/blog_star2020/detail?username=zpcandzhj
87	戴着眼镜看不清	53	328	https://bss.csdn.net/m/topic/blog_star2020/detail?username=lyztyycode
88	beyondma	20	315	https://bss.csdn.net/m/topic/blog_star2020/detail?username=beyondma
89	tyyj90	137	314	https://bss.csdn.net/m/topic/blog_star2020/detail?username=tyyj90
90	码农飞哥	106	313	https://bss.csdn.net/m/topic/blog_star2020/detail?username=u014534808
91	后端技术漫谈	71	301	https://bss.csdn.net/m/topic/blog_star2020/detail?username=qqxx6661
92	anlian523	10	298	https://bss.csdn.net/m/topic/blog_star2020/detail?username=anlian523
93	AlbertS	5	292	https://bss.csdn.net/m/topic/blog_star2020/detail?username=shihengzhen101
94	我是橙子va	155	286	https://bss.csdn.net/m/topic/blog_star2020/detail?username=weixin_38239050
95	程序员爱酸奶(QuellanAn)	46	283	https://bss.csdn.net/m/topic/blog_star2020/detail?username=qq_27790011
96	华为云	68	268	https://bss.csdn.net/m/topic/blog_star2020/detail?username=devcloud
97	Mr.郑先生_	102	266	https://bss.csdn.net/m/topic/blog_star2020/detail?username=zbp_12138
98	云祁	186	263	https://bss.csdn.net/m/topic/blog_star2020/detail?username=beiisbei
99	半颗心脏	19	257	https://bss.csdn.net/m/topic/blog_star2020/detail?username=xh870189248
100	cv调包侠	42	249	https://bss.csdn.net/m/topic/blog_star2020/detail?username=qq_46098574

进程完成，退出码 0