python超链接程序_python超链接抓取工具

最新推荐文章于 2024-03-06 15:39:41 发布

weixin_39646695

最新推荐文章于 2024-03-06 15:39:41 发布

阅读量186

点赞数

文章标签： python超链接程序

python实现自动抓取某站点内所有超链接

(仅供学习使用)

代码部分

#!/usr/bin/python

import requests

import time

import re

import sys, getopt #命令行选项

from bs4 import BeautifulSoup

localtime=time.strftime("%Y-%m-%d %H:%M:%S", time.localtime()) #时间

z=[] #存取网站

x=[] #优化网站，去除冗杂部分

def main(argv):

url = '' #输入的网址

file_path = '' #保存路径

try:

opts, args = getopt.getopt(argv,"hu:f:",["url=","file="])

except getopt.GetoptError:

print ('allsite.py -u -f ')

sys.exit(2)

for opt, arg in opts:

if opt == '-h': #帮助

print ('allsite.py -u -f ')

sys.exit()

elif opt in ("-u", "--url"): #输入网址

url = arg

re1 = requests.get(url) #get网站内容

re1.encoding = "utf-8"

html = re1.text

bt = BeautifulSoup(html, 'html.parser', )

hh = bt.find_all('a') #查找元素

for site in hh:

z.append(site.get('href')) #进一步过滤得到超链接

for i in z:

if (re.match('//www', str(i)) or re.match('www', str(i))):

xx = str(i).replace('//www', 'www', 1)

x.append(xx)

elif (re.match('http', str(i))): #过滤

x.append(str(i))

elif (re.match('/', str(i))): #过滤

xx = str(i).replace("/", "", 1)

if (re.match('/', xx)):

xxx = str(xx).replace("/", "", 1)

x.append(xxx)

else:

x.append(url + xx)

else: #过滤

if (re.search('javascript', str(i)) == None):

x.append(url + str(i))

print(localtime + " 总共:" + str(len(x)) + "个网址") #输出超链接

for i in x:

print(i)

elif opt in ("-f", "--file"): #输入保存路径

file_path = arg

for i in x: #保存文件

with open(file_path, 'a') as file_object:

file_object.write(i)

file_object.write('\n')

if __name__ == "__main__":

main(sys.argv[1:])

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39646695

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python超链接程序,python超链接

weixin_31225063的博客

03-26

2129

如何用python创建超链接我是新手，想问个作业中的小白问题：我要分析一个文章，把所有单词提取你分析的文章是一个网页吗？我觉得很多细节你都没描述到？Python的text控件如何插入超链接？请问插入超链接的方法？text控件中，超链接和文本是否可以共存？对方问python控件，你用html来解释，我也是醉了，不懂不要瞎说好吗，题主估计是在做桌面程序，使用html语言解释，我真心想对你说。pyth...

python在文本添加超链接,在python中创建超链接

weixin_29272301的博客

11-20

1568

I have a log file in which some test commands and their status (Pass/Fail) are logged using python. Now I want that test commands should not be written as simple text but should be written as hyperlin...

参与评论您还未登录，请先登录后发表或查看评论

python链接抓取工具

qq_43550748的博客

09-22

206

python实现自动抓取某站点内所有超链接 （仅供学习使用）代码部分 #!/usr/bin/python import requests import time import re import sys, getopt #命令行选项 from bs4 import BeautifulSoup localtime=time.strftime("%Y-%m-%d %H:%M:%S", time....

python获取指定网页上所有超链接的方法

09-22

主要介绍了python获取指定网页上所有超链接的方法,涉及Python使用urllib2模块操作网页抓取的技巧,非常具有实用价值,需要的朋友可以参考下

Python+Selenium自动化测试教程连载(2)

09-15

408

上一期介绍了自动化测试Python+Selenium框架的基本介绍，这期讲元素定位。元素定位 1.WEB自动化时利器–浏览器自带开发者工具几乎所有浏览器都自带前端调试工具，也就是我们说的开发者工具。开发者工具包括元素（ELements）、控制台（Console）、源代码（Sources）、网络（Network）、性能（Performance）等页签，可以分别点击查看。元素（Elements）：用于查看或修改HTML元素的属性、CSS属性、监听事件、断点。控制台（Console）：控制台一般用于执行

python在文本添加超链接_python做超链接

weixin_39997037的博客

11-20

3339

广告关闭腾讯云11.11云上盛惠，精选热门产品助力上云，云服务器首年88元起，买的越多返的越多，最高返5000元！原始文件包含的超链接在创建新文件时丢失，该怎么办？这是我的python程序：from docx import documentfrom docx.shared import inches import csvimport os f= open(file.csv)nometofind...

python分析网页上所有超链接的方法

09-22

在Python编程中，分析网页上的所有超链接是一项常见的任务，特别是在网络爬虫和数据抓取项目中。本篇文章将详细介绍如何利用Python的`urllib`和`htmllib`模块来实现这一功能。这两个模块提供了处理HTTP请求和解析...

python超链接抓取工具

黑马程序员广州中心的专栏

12-10

142

python实现自动抓取某站点内所有超链接 （仅供学习使用）代码部分 #!/usr/bin/python import requests import time import re import sys, getopt#命令行选项 from bs4 import BeautifulSoup localtime=time.strftime("%Y-%m-%d %H:%M:%S", time.l...

Python 抓取网页的所有超链接

潘广宇的博客

05-17

3885

import urllib.request from bs4 import BeautifulSoup html = urllib.request.urlopen("http://www.sohu.com").read().decode("utf-8") soup = BeautifulSoup(html, features='html.parser') tags = soup.find_a...

Python抓取网页中的超链接以及其文本

铁盒薄荷糖的博客

11-22

3765

0.准备工作：读入网页加以解析抓取，需要用到的软件包是 requests_html。我们此处并不需要这个软件包的全部功能，只读入其中的 HTMLSession 就可以。我们不想要集合，只想要其中的链接字符串。所以我们先把它转换成列表，然后从中提取第一项，即网址链接。#以把抓取的内容输出到Excel中了。Pandas内置的命令，就可以把数据框变成csv格式。），它就把找到的所有描述文本和链接路径都返回给我们。确认该区域就是我们要找的链接和文字描述后，选择。中查看的时候，有可能是乱码。结果数据对应的文本。

Python提取网页中超链接的方法

09-21

很多人在一开始学习Python，会打算用作爬虫开发。既然要做爬虫，首先就要抓取网页，并且从网页中提取出超链接地址。这篇文章给大家分享一个简单的方法，有需要的可以参考借鉴。

chatgpt赋能python：在Python中如何实现超链接本地文件

「虚幻私塾」

06-28

607

本文由chatgpt生成，文章没有在chatgpt生成的基础上进行任何的修改。以上只是chatgpt能力的冰山一角。作为通用的Aigc大模型，只是展现它原本的实力。对于颠覆工作方式的ChatGPT，应该选择拥抱而不是抗拒，未来属于“会用”AI的人。🧡AI职场汇报智能办公文案写作效率提升教程 🧡专注于AI+职场+办公方向。下图是课程的整体大纲下图是AI职场汇报智能办公文案写作效率提升教程中用到的ai工具。

Python基础代码爬取超链接文字及链接

落叶先生

06-06

2万+

今天给大家分享一个Python基本代码爬取超链接文字及超链接，及一一对应存放到本地文件夹TXT文件中，这里因为我是一个Python初学者，所以所写的代码非常简单，对大家而言也是非常容易理解的。这里我以我的博客为例写了一个，前面还是逐步解释，后面会附上完整的代码：首先我们依旧是爬取网页的三个步骤，HTML下载器（生成URL，下载内容），第二；URL管理器，第三；HTM...

Python 能做出哪些有意义的事情?

Python数据挖掘

04-20

6393

Python 凭借语法的易学性，代码的简洁性以及类库的丰富性，赢得了众多开发者的喜爱。下面我们来看看，用不超过10行代码能实现些什么有趣的功能 OpenCV OpenCV 作为最为著名的计算机视觉工具，基于它我们也可以做很多有趣的事情首先我们安装好 OpenCV 库 pip install opencv-python 猫脸识别在当今社会，谁还没有一个两个猫主子呢，高冷的猫咪往往会得到人们特殊的爱戴！我们也习惯了人脸识别，今天就通过几行代码来看看猫脸识别是怎么的呢首先我们到安装目录下提取锚链识别 X

python自动化实现的简单使用