python爬取晋江_爬虫爬取晋江文学网总分榜(失败)

一、目的 :

爬取晋江文学网总分榜

二、python爬取数据

三、爬取

20200503233546693034.png

在开始多出现了38号而且顺序内容不准确

代码:

import requests

from bs4 import BeautifulSoup

import bs4

url="http://www.jjwxc.net/topten.php?orderstr=7&t=0"

def getHtml(url):

r=requests.get(url)

r.raise_for_status()

r.encoding=r.apparent_encoding

return r.text[26000:100000]

def fillList(html):

l1,l2 = [],[]

soup = BeautifulSoup(html,"html.parser")

for i in soup.find_all(‘a‘,"tooltip"):

l1.append(str(i.string))

for tag in soup.find_all(‘td‘,{"align":"center"}):

s=str(tag.string)

s.replace(" "," ")

l2.append(s)

return l1,l2

def printList(l1,l2):

n1,n2 = len(l1),len(l2)

n=max(n1,n2)

for i in range(n):

print("第{}名:《{}》".format(i+1,l1[i]))

print("积分:{}".format(l2[i]))

print("")

def main():

html=getHtml(url)

l1,l2=fillList(html)

printList(l1,l2)

main()

20200503233546949880.png

20200503233547206726.png

这几类数据我分不开,绝望

百度了一下就发现

20200503233547314152.png

内容网址:https://www.cnblogs.com/wangyongfengxiaokeai/p/11869595.html

而且好像height=‘23’和alig前后位置不同对结果也有影响

20200503233547371771.png

又换了试就发现是红框的问题,但是红框内换了几次代码还是都不能完全分开,最后只有l2中为作品字数时可以完全带进去,但是字数在这里没有什么实际价值。

原文:https://www.cnblogs.com/ZZRlomaz/p/12824598.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值