废话不多说,直接上代码(该代码若转载需要备注出处,请遵守版权)
所用到的第三方库,re、requests、BeautifulSoup4
import re
import requests
from bs4 import BeautifulSoup
def reStr(strText): #进行字符串处理
res1 = r'/">(.*)</a' #正则 -> 第三方库名
res2 = r'n">(.*)</s' #正则 -> 第三方库对应的版本号
name = re.findall(res1, str(strText))
version = re.findall(res2, str(strText))
name_version = "".join(name) + "==" + "".join(version)
#print (name_version)
return name_version #返回"name==version"字符串
def getList(url,file_aa): #获取该页面所需要的字符串列表
re = requests.get(url)
re.encoding = 'utf-8'
soup = BeautifulSoup(re.text,'html.parser')
strlist = soup.find_all('h3')
for str_i in strlist:
file_aa.write(reStr(str_i)+'\n')
def getUrl(url,html): #做的简陋了,这个是看了源码做的一个,创建页面http地址列表
for i in range(1,501): #一共500次循环,所中间断了,修改range(i,j)中的 i 成控制台上输出最后一条的数字
url_num = str(i)
url.append(html + url_num)
if __name__ == '__main__':
url = []
html = "https://pypi.org/search/?c=Programming+Language+%3A%3A+Python+%3A%3A+3.6&o=-created&q=&page="
getUrl(url,html)
file_aa = open("python_3_6.txt", mode='a') #以追加的形式打开文件
for url_i in url:
print (url_i)
getList(url_i,file_aa)
file_aa.close()
这就是一个简单的代码了
希望大家python能学的更好,加油
若有好玩的python代码或者这好玩的其他功能,我会更新,但有可能不及时,请大家谅解