搜索引擎
文章平均质量分 66
followingturing
这个作者很懒,什么都没留下…
展开
-
百度搜索URL参数含义
原创文章,版权归andxu所有,如转载请征求本人同意,并一定保存本页链接。—————————————————————————————————————————————————— 在做搜索时候,关注搜索引擎的URL格式是一个很重要的问题,以百度为例,整理一下常用的格式和技术: Eg.几个百度搜索的URLhttp://www.baidu.com/s?lm=原创 2012-08-10 10:35:29 · 10363 阅读 · 0 评论 -
用python从百度获取亚马逊的商品ID
包含两个头文件,一个是 web.py 的框架,一个是 tagparser 代码很简单,看下面: #encoding=utf-8import webimport tagparserdb = web.database(dbn='mysql',user='root', pw='', db='webpy')count=0for i in range(10000,10): url=转载 2012-09-07 18:29:09 · 1242 阅读 · 0 评论 -
使用Python访问并下载网页内容
#!/usr/local/bin/python3.2import urllib.request,io,os,sysreq=urllib.request.Request("http://bbs.admin5.com/api.php?mod=js&bid=70")f=urllib.request.urlopen(req)s=f.read()s=s.decode('gbk','ignore')转载 2012-09-07 18:24:20 · 648 阅读 · 0 评论 -
网站安全新隐患——暗链
网站安全新隐患——暗链文 知道创宇 廖凯 近年来,随着国家相关部门对互联网安全事件的重视、部分软件开发厂商安全意识的提高,曾经红极一时的“挂马”攻击手段已经日趋减少,特别是2009年刑法明确“挂马”事件量刑标准之后,多个曾经猖狂一时的“挂马”集团相继落网,“挂马”这种风险高且收益不稳定的攻击手段逐步为黑色产业链所抛弃。黑色产业链是否因为挂马的衰落而就此沉寂呢?答案是否定的,攻击手转载 2012-08-19 13:31:20 · 9380 阅读 · 0 评论 -
socket 查询百度
# -*- coding: utf-8 -*-# querybaidu.py'''socket 给百度发送http请求连接成功后,发送http的get请求,所搜索功能'''import socketimport sysimport timeif __name__=='__main__': #创建套接字 try : sock = socket.s转载 2012-08-10 11:15:47 · 1673 阅读 · 0 评论 -
学习一下手动提交sitemap地图更新 加速网站快照更新
相信很多站都遇到过自己网站快照长期不更新的情况,其实我们已经对网站进行过更新,只是搜索引擎的蜘蛛不来,或者来了也不抓取记录,这种情况我们该怎么办呢。 我的一个站的快照一直停留在7月24号,这个快照是网站在没有做优化前的快照,8月初,我们对些站进行优化,首页代码已经被改了大半,网站合理的设置了TITLE,关键词,描述等,内容里的关键词分布也做好了。就开始发博文,贴子,留言版来引蜘蛛转载 2012-08-10 11:06:22 · 2605 阅读 · 0 评论 -
wget 命令用法详解
非常好的一个命令,整理一下:百度百科: http://baike.baidu.com/view/1312507.htmwget是在Linux下开发的开放源代码的软件,作者是Hrvoje Niksic,后来被移植到包括Windows在内的各个平台上。它有以下功能和特点:(1)支持断点下传功能;这一点,也是网络蚂蚁和FlashGet当年最大的卖点,现在,转载 2012-08-10 09:07:37 · 886 阅读 · 1 评论 -
Linux 抓取网页方式(curl+wget)
Linux抓取网页,简单方法是直接通过 curl 或 wget 两种命令。curl 和 wget 命令,目前已经支持Linux和Windows平台,后续将介绍。curl 和 wget支持协议curl 支持 http,https,ftp,ftps,scp,telnet等网络协议,详见手册 man curlwget支持 http,https,ftp网络协议,详见手册m转载 2012-08-09 17:59:20 · 980 阅读 · 0 评论 -
百度谷歌更新时间、日期等相关规律的研究~
http://www.seowhy.com/bbs/thread-38114-1-1.html 百度谷歌更新时间、日期等相关规律的研究~百度(baidu)和谷歌(google)的更新日期和时间规律 作为一名网站站长,来自搜索引擎的流量已经是网站流量的一个重要组成部分,因此对搜索引擎更新特别关注,总是希望自己的网站在百度收录越来越多,天天site,现在我来告诉转载 2012-07-25 15:54:18 · 3436 阅读 · 0 评论 -
The Easy Way to Extract Useful Text from Arbitrary HTML 从HTML文件中抽取正文的简单方案
The Easy Way to Extract Useful Text from Arbitrary HTML从HTML文件中抽取正文的简单方案作者:alexjc译者:恋花蝶(http://blog.csdn.net/lanphaday)原文地址:http://ai-depot.com/articles/the-easy-way-to-extract-useful-text-fro转载 2012-11-05 11:32:15 · 3738 阅读 · 0 评论