python做一个爬第三方库名称（原创）

最新推荐文章于 2023-09-07 16:46:16 发布

hzhazha

最新推荐文章于 2023-09-07 16:46:16 发布

阅读量215

点赞数

分类专栏： python 文章标签： python 爬虫文件读写正则表达式

本文链接：https://blog.csdn.net/hzhazha/article/details/80635831

版权

python 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

废话不多说，直接上代码（该代码若转载需要备注出处，请遵守版权）

所用到的第三方库，re、requests、BeautifulSoup4

import re
import requests
from bs4 import BeautifulSoup

def reStr(strText):   #进行字符串处理
    res1 = r'/">(.*)</a'   #正则 -> 第三方库名
    res2 = r'n">(.*)</s'   #正则 -> 第三方库对应的版本号
    name = re.findall(res1, str(strText))
    version = re.findall(res2, str(strText))
    name_version = "".join(name) + "==" + "".join(version)
    #print (name_version)
    return name_version   #返回"name==version"字符串


def getList(url,file_aa):  #获取该页面所需要的字符串列表
    re = requests.get(url)
    re.encoding = 'utf-8'
    soup = BeautifulSoup(re.text,'html.parser')
    strlist = soup.find_all('h3')
    for str_i in strlist:
        file_aa.write(reStr(str_i)+'\n')


def getUrl(url,html):     #做的简陋了，这个是看了源码做的一个，创建页面http地址列表
    for i in range(1,501): #一共500次循环，所中间断了，修改range（i，j）中的 i 成控制台上输出最后一条的数字
        url_num = str(i)
        url.append(html + url_num)


if __name__ == '__main__':
    url = []
    html = "https://pypi.org/search/?c=Programming+Language+%3A%3A+Python+%3A%3A+3.6&o=-created&q=&page="
    getUrl(url,html)
    file_aa = open("python_3_6.txt", mode='a')    #以追加的形式打开文件
    for url_i in url:
        print (url_i)
        getList(url_i,file_aa)
    file_aa.close()

这就是一个简单的代码了

希望大家python能学的更好，加油

若有好玩的python代码或者这好玩的其他功能，我会更新，但有可能不及时，请大家谅解

hzhazha

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python做一个爬第三方库名称（原创）

废话不多说，直接上代码（该代码若转载需要备注出处，请遵守版权）所用到的第三方库，re、requests、BeautifulSoup4import reimport requestsfrom bs4 import BeautifulSoupdef reStr(strText): #进行字符串处理 res1 = r'/"&gt;(.*)&lt;/a' #正则 -&gt; 第三方...
复制链接

扫一扫

专栏目录