利用inurl进行精确搜索

本文详细介绍了Inurl这一搜索引擎高级语法的使用方法及其在不同场景中的应用技巧,如精确查找论坛、博客等特定类型的网站资源。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Inurl是百度,Google等搜素引擎都支持的高级语法,它的作用是限定在URL中搜索。Inurl的使用格式是:“inurl:xxx”、“inurl:xxx 关键词”、“关键词 inurl:xxx”。
“inurl:xxx”的意思是命令搜索引擎查找url中包含xxx的网页,怎么用呢?比如你要收集一批BBS,你可以到网址站去找BBS,那很有限,如果你直接搜索“论坛”“社区”等关键词搜素出来的结果五花八门,也很难筛选,这是你可以直接搜索“inurl:bbs/” “inurl:club/” “inurl:forum”等。这样就限定了搜索URL含有BBS目录 CLUB目录 FORUM字样的结果。(注:加了斜杠/就代表目录了)
如果你要搜素博客,同样可以搜索“inurl:blog”;要想寻找政府教育网站就搜索“inurl:edu”。
另外不要忘记,“inurl:xxx”除了可以和其他关键字组合起来用,他们本身还可以重复组合用,比如http://www.baidu.com/s?wd=inurl%3Ablog+inurl%3Aedu  只有你想不到,没有搜不到。平时只要多观察URL的表现形式,关键时刻能排上大用途的。

Inurl还可以进行加减使用,上面的地址等于是相加结果,即:搜索含有blog与edu的网站。
如果你想搜索含有blog但是不含有edu的网站,那就搜索:
http://www.baidu.com/s?bs=inurl%3Ablog+inurl%3Aedu&f=8&wd=inurl%3Ablog+-inurl%3Aedu
中间写一个减号就是了。我想搜索本SEO博客中seoblog目录的收录情况,那就搜索:
http://www.google.cn/search?client=aff-cs-maxthon&forid=1&ie=utf-8&oe=UTF-8&hl=zh-CN&q=site%3Awww.chongqingseo.com+inurl%3Aseoblog%2F
但是我不想看到tag的页面:
http://www.google.cn/search?client=aff-cs-maxthon&forid=1&ie=utf-8&oe=UTF-8&hl=zh-CN&q=site%3Awww.chongqingseo.com+inurl%3Aseoblog%2F+-inurl%3Atag

### 关于闲鱼爬虫的实现 #### 1. 爬虫架构概述 典型的爬虫系统由多个模块组成,这些模块协同工作以完成数据抓取、处理和存储的任务。对于 `idlefish_xianyu_spider-crawler-sender` 这样的项目,其核心功能可以分为以下几个部分: - **依赖管理**: 使用 `requirements.txt` 来定义所需的所有外部库[^2]。 - **主爬虫逻辑**: 存储在 `spiders/xianyu.py` 文件中,这是整个爬虫的核心代码所在位置[^2]。 - **中间件层**: 提供额外的功能支持,例如通过代理池规避 IP 封禁等问题,具体实现在 `middleware/proxy_middleware.py` 中[^2]。 - **配置文件**: 所有的全局变量以及行为设定都集中写入到 `settings.py` 当中,包括但不限于并发数限制、下载延迟时间等参数调整。 以下是基于上述描述的一个简化版本 Python 实现案例: ```python import requests from bs4 import BeautifulSoup def fetch_page(url): headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_3) AppleWebKit/537.36 ' '(KHTML, like Gecko) Chrome/50.0.2652.0 Safari/537.36' } response = requests.get(url, headers=headers) if response.status_code == 200: return response.text else: raise Exception(f"Failed to load page {url}") def parse_html(html_content): soup = BeautifulSoup(html_content, 'html.parser') listings = [] # 假设页面上商品信息位于 class="item-list" item_listings = soup.find_all('div', {'class': 'item-list'}) for listing in item_listings: title = listing.find('h2').text.strip() price = listing.find('span', {'class': 'price'}).text.strip() listings.append({ 'title': title, 'price': price }) return listings if __name__ == "__main__": url = "https://www.xianyu.com/search?query=example" html = fetch_page(url) data = parse_html(html) print(data) ``` 此脚本展示了基本的工作流程:先发起 HTTP 请求获取网页内容;再利用 HTML 解析器提取感兴趣的信息片段[^3]。 #### 2. 数据模型设计 为了更好地组织所采集的数据,在 Scrapy 框架下通常会创建专门的对象来表示每条记录的内容形式。这一步骤对应的是 `items.py` 文件中的类定义[^2]: ```python import scrapy class ProductItem(scrapy.Item): title = scrapy.Field() # 商品名称字段 price = scrapy.Field() # 单价字段 link = scrapy.Field() # 链接URL字段 ``` 以上述方式构建出来的实例对象能够方便后续阶段进一步加工或者持久化操作。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值