python爬取百度域名_Python 爬虫练习(三) 利用百度进行子域名收集

最新推荐文章于 2024-07-20 02:38:06 发布

weixin_39710561

最新推荐文章于 2024-07-20 02:38:06 发布

阅读量436

点赞数

文章标签： python爬取百度域名

本文链接：https://blog.csdn.net/weixin_39710561/article/details/114445621

版权

不多介绍了，千篇一律的正则匹配.....

import requests

import re

head = {'User-Agent':

'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.130 Safari/537.36'}

key = 'jcrcw.com' # 这里填主域名

lst = []

match = 'style="text-decoration:none;">(.*?)'

for i in range(1, 20): # 1-19页

url = "https://www.baidu.com/s?wd=inurl:{}&pn={}&oq={}&ie=utf-8".format(key, i, key)

print(url)

# response = requests.get(url,headers=head,cookies = cook).content

response = requests.get(url, headers=head).content

subdomains = re.findall(match, response.decode())

for j in subdomains:

j = j.replace('', '')

if key in j:

if j not in lst:

lst.append(j)

# print(lst)

print(lst)

运行结果：

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39710561

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Python 爬虫案例

悦分享

10-19

1万+

大数据采集：通过爬虫获取特定行业（如汽车行业）股票的基本信息，并获取单只股票的历史行情数据。大数据存储：根据自定义的时间间隔定时获取涨幅前60名股票的实时行情数据，并存储在数据库中。大数据分析：计算股票的月涨跌幅，对股票进行相关性分析，并预测股票行情的未来走势。

Python爬虫第三天

maelee的博客

01-11

317

五.xpath解析 xpath是针对xml创建的表达式语言，可以从xml中直接提取到数据，但是我们提取到的网页源代码是html，html是xml的子集，xpath也就可以直接提取html中的内容。 1.安装lxml库需要安装lxml库 pip install lxml 教程用的html文件 <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>

参与评论您还未登录，请先登录后发表或查看评论

百度收集子域名（2021.9.9）

mahua2000的博客

09-09

1861

python脚本：使用百度收集子域名

python爬取百度域名_python爬取百度搜索結果url匯總

weixin_30704893的博客

02-04

317

寫了兩篇之后，我覺得關於爬蟲，重點還是分析過程分析些什么呢：1)首先明確自己要爬取的目標比如這次我們需要爬取的是使用百度搜索之后所有出來的url結果2)分析手動進行的獲取目標的過程，以便以程序實現比如百度，我們先進行輸入關鍵詞搜索，然后百度反饋給我們搜索結果頁，我們再一個個進行點擊查詢3)思考程序如何實現，並克服實現中的具體困難那么我們就先按上面的步驟來，我們首先認識到所搜引擎，提供一個搜索框，讓...

如何批量查询百度收录提取URL和网址域名

最新发布

weixin_31315567的博客

07-20

189

百度关键词提取URL域名软件是一款专为网络数据分析师、SEO优化师和网站管理员设计的实用工具。该软件通过集成先进的网页抓取技术和数据分析算法，能够快速从百度搜索引擎的搜索结果中提取与关键词相关的URL，并进一步解析出这些URL的域名信息。软件功能快速抓取：软件能够模拟用户在百度搜索引擎中输入关键词进行搜索，并快速抓取返回的...

python爬取百度域名_Python+Google Hacking+百度搜索引擎进行信息搜集

weixin_39644713的博客

11-29

623

记录一下在用python爬取百度链接中遇到的坑：1.获取百度搜索页面中的域名URLBeautifulSoup获取a标签中href属性后，链接为百度url，利用request直接访问默认会直接进行跳转，无法获取所需域名此时需要将requests的allow_redirects属性设置为False，禁止进行跳转，requests默认会进行跳转再使用.headers['Location']获取最后链接:...

python信息收集之子域名

aichenkao9206的博客

01-23

305

python信息收集之子域名 主要是以下3种思路：字典爆破搜索引擎第三方网站 0x00 背景知识 list Python内置的一种数据类型是列表：list是一种有序的集合。 >>> names = ['mark','sam','rachel'] >>> names[0] //使用索引访问列表元素 'mark' >>&gt...

python 使用免费爬取百度首页网页简单案例

大蛇王的博客

12-04

3071

#coding:utf8 import urllib2 url="http://www.baidu.com/" # 代理开关，表示是否启用代理 # 西刺代理网址 http://www.xicidaili.com/ proxyswitch=True # 构建一个Handler处理器对象，参数是一个字典类型，包括代理类型和代理服务器IP+PORT httpproxy_handler=urllib

weixin_39770165的博客

03-02

1201

· Python利用Xpath和requests包。爬取整站小说内容。1 首先寻找要爬取的站点，进行分析。image.pngimage.png根据网站内容，可以看到是根据tab页进行分类。点击不同的tab页面，可以发现每个分类都是通过image.pnghttps://www.biqugecom.com/list/1-1.html，https://www.biqugecom.com/list/4-1...

Python爬虫——简单网页抓取（实战案例）小白篇_python爬虫爬取网页数据

2401_84562810的博客

05-02

1443

pythonkw = input(‘请输入要翻译的英文单词：’)data = {‘kw’: kw# 由于百度翻译没有反扒措施，因此可以不写请求头‘referer’: ‘百度翻译-200种语言互译、沟通全世界！’,

Python爬虫的数据提取,一篇博客就搞定啦!

ChanZany的博客

04-26

1674

数据提取目录数据提取XPath语法和lxml模块XPath什么是XPathXPath开发工具XPath语法选取节点：谓语：通配符选取多个路径：运算符：总结使用方式需要注意的知识点lxml库基本使用：从文件中读取html代码：在使用lxml解析html代码时需要注意的点在lxml中使用XPath语法：练习：总结lxml结合xpath注意事项：实战：使用requests和xpath爬取正在上映的豆瓣...

Python-自动化子域名简单收集去重获取网站banner信息

08-10

自动化子域名简单收集去重获取网站banner信息

Python子域名挖掘.exe

04-08

挖掘搜集子域名，并且可以输出到文件，大家可以试一试，Python打包的exe程序。输出文件的格式是TXT

python_获取百度搜索结果(标题和URL)

11-11

Python脚本用于获取百度搜索结果中的标题和URL。输入：百度关键词及搜索页面数输出：标题和URL

百度url采集器

04-25

百度url采集器，输入搜索语法可采集符合的网站，保存到txt中，可用于批量搜索可注入站点。

利用百度搜集子域名--爬虫技巧

weixin_30411819的博客

12-18

1181

利用百度搜集子域名--爬虫技巧问题引入： 1. 何为子域名？答：子域名是相对于网站的主域名的。比如百度的主域名为：baidu.com，这是一个顶级域名，而在顶级域名前由”.”隔开加上不同的字符，比如zhidao.baidu.com，那么这就是一个二级域名，同理，继续扩展主域名的主机名，如jian.news.baidu.com，这就是一个三级域名，依次类推。 2. 手动收集子域名是...

python爬虫爬取百度首页

qq_45767476的博客

01-31

6271

import requests #导入requests模块 #利用爬虫代码爬去百度首页 #如果当前python文件作为入口程序执行时，则执行if语句下的代码 if __name__=='__main__': # 指定URL url = 'https://www.baidu.com' # 进行UA伪装，模拟浏览器,注意要将相应的User-Agent封装在一个字典中 headers = { 'User-Agent': 'Mozilla/5.0 (Windows

Python爬虫之路1.requests初始，爬取百度首页.(2022.1.2)

lixuefei_1993的博客

01-02

823

requests初始，爬取百度首页，并进行持久化存储

Python 爬虫练习(三) 利用百度进行子域名收集

weixin_30500105的博客

11-23

426

不多介绍了，千篇一律的正则匹配..... import requests import re head = {'User-Agent': \ 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.130 Safa...

python爬取链家网_python - 爬虫入门练习爬取链家网二手房信息

05-27

好的，这是一个很不错的爬虫入门练习。首先，你需要安装 Python 的 requests 和 BeautifulSoup 库。安装方法可以在官方文档中找到。接下来，你需要分析链家网二手房信息的页面结构，找到需要爬取的数据。可以使用 Chrome 开发者工具来查看网页源代码和网络请求。通常情况下，你需要模拟浏览器发送请求，获取网页内容，然后使用 BeautifulSoup 解析 HTML，提取数据。以下是一个简单的示例代码，用于爬取链家网二手房信息： ```python import requests from bs4 import BeautifulSoup url = 'https://bj.lianjia.com/ershoufang/' response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') house_list = soup.find_all('div', class_='info') for house in house_list: title = house.find('div', class_='title').a.text.strip() address = house.find('div', class_='address').div.text.strip() price = house.find('div', class_='price').span.text.strip() print(title, address, price) ``` 在这个示例中，我们首先发送一个 GET 请求到链家网二手房信息的页面。然后使用 BeautifulSoup 解析 HTML，获取每个房源的标题、地址和价格信息。最后打印这些信息。当然，这只是一个简单的示例代码，你可以根据自己的需要进行修改和调整。同时，需要注意的是，爬取网站数据是需要遵守相关法律法规和网站的使用协议的。在爬取数据之前，请先了解相关规定。