百度蜘蛛支持crawl-delay/sitemaps/blog ping接口,Alexa增加Keywords/来源分析/用户构成...

Baidu的API和google的完全相同,只是RPC的URL不同。Baidu的RPC服务URL 是

http://ping.baidu.com/ping/RPC2
具体提交参数可以参考: Google BlogSearch 服务的Ping接口文档。此外: Baidu蜘蛛也支持 crawl-delaySitemaps协议。加上百度自有的 阿拉丁格式接口,感觉内容网站和搜索引擎之间的交互接口越来越丰富了,结构化的数据提取和展现应该是通用搜索引擎的一个进化方向;

网站分析服务商Alexa最近也有不少面向站长很贴心的功能改进,虽然作为alexa反应总体流量趋势的能力越来越弱,但其中一些流量构成报告还是很有参考价值的:
1 搜索来源占总体流量比例;
2 搜索来源关键词;
3 流量来源分布: 包括搜索和内容链接;
4 用户构成,包括性别,年龄,教育,上网地点(工作/家里/学校),是否有小孩;

样例截图附后: 网站流量越大相对统计趋势会越准一些;

作者: 车东 发表于:2009-07-26 13:07 最后更新于:2009-10-21 17:10
版权声明:可以转载,转载时请务必以超链接形式标明文章 的原始出处和作者信息及 本版权声明

 

« 腰围2尺1,2,3,4,5,6,7,8寸分别等于是多少厘米/英寸(对照表) | (回到Blog入口)|(回到首页) | [搜狗招聘] 搜狗搜索引擎 产品专员 欢迎实习生 »

好的,我可以为您提供一些思路和代码实现。 首先,您需要安装Scrapy框架,可以通过以下命令进行安装: ``` pip install scrapy ``` 安装完成后,您可以创建一个新的Scrapy项目,并进入项目所在的文件夹: ``` scrapy startproject sensirion cd sensirion ``` 然后,您需要创建一个Spider来爬取网站上的PDF文档。在项目文件夹下,您可以通过以下命令创建一个Spider: ``` scrapy genspider sensirion_spider sensirion.com ``` 这个命令将在项目文件夹的spiders文件夹中创建一个名为sensirion_spider.py的Spider文件。在这个文件中,您需要定义如何爬取网站上的PDF文档。 以下是一个可能的实现方式: ```python import scrapy class SensirionSpider(scrapy.Spider): name = "sensirion" allowed_domains = ["sensirion.com"] start_urls = ["https://www.sensirion.com/en/download-center/"] def parse(self, response): pdf_links = response.css("a[href$='.pdf']::attr(href)").extract()[:10] for link in pdf_links: yield scrapy.Request(url=response.urljoin(link), callback=self.save_pdf) def save_pdf(self, response): filename = response.url.split("/")[-1] with open(filename, "wb") as f: f.write(response.body) self.log(f"Saved file {filename}") ``` 在这个Spider中,我们首先定义了要爬取的网站和要爬取的PDF文档数量(这里是10个)。然后,在parse函数中,我们使用CSS选择器来找到所有的PDF链接,并使用yield返回一个Request对象,其中包含要下载PDF文档的链接和回调函数save_pdf。 在save_pdf函数中,我们将下载下来的PDF文档保存到本地文件中,并使用日志记录保存的文件名。 最后,您可以使用以下命令来运行这个Spider: ``` scrapy crawl sensirion ``` 这将开始爬取网站并下载10个PDF文档到当前目录下。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值