仿站长之家的源码_Python爬虫工具,站长之家网站关键词采集及导出

f907dc8c98e8830c782e95d899d532b7.png

Python爬虫工具,站长之家网站关键词采集及导出

b3c7a8fdc71233e013947f86585bc6c0.png
#站长之家网站关键词采集

import requests
from lxml import etree
import xlsxwriter

def hqsj(url):
    #url="http://rank.chinaz.com/?host=www.ugainian.com"
    html=requests.get(url).text
    #print(html)
    nr=etree.HTML(html)
    #print(nr)
    keywords=nr.xpath('//div[@class="w25-0 tl pl10 pr pbimg showt"]/a/text()') #关键字
    #print(keywords)
    datas=nr.xpath('//div[@class="w8-0"]/a/text()')
    #print(datas)
    overall_index=datas[0::4] #整体指数
    #overall_index=datas[::4])
    pc_index=datas[1::4] #pc指数
    mobile_index=datas[2::4] #移动指数
    baidu_ranking=datas[3::4] #百度排名
    #print(overall_index)
    #print(pc_index)
    #print(mobile_index)
    #print(baidu_ranking)
    collection=nr.xpath('//div[@class="w8-0 bor-r1s05"]/a/text()') #收录量
    #print(collection)
    title=[]
    link=[]
    title_datas=nr.xpath('//div[@class="R-home-w"]/a')
    for title_data in title_datas:
        #print(title_data.attrib)
        title.append(title_data.attrib['title']) #网页标题
        links=title_data.attrib['onclick'] #网页链接
        links=links.replace('window.open',"")
        links =links[2:]
        links = links[:-2]
        #print(links)
        link.append(links)

    #print(title)
    #print(link)

    for keywords,overall_index,pc_index,mobile_index,baidu_ranking,collection,title,link in zip (keywords,overall_index,pc_index,mobile_index,baidu_ranking,collection,title,link):
        data=[keywords,overall_index,pc_index,mobile_index,baidu_ranking,collection,title,link]
        #print(data)

    return data





def hqlj(wz):
    url=f"http://rank.chinaz.com/?host={wz}"
    html=requests.get(url).text
    #print(html)
    nr=etree.HTML(html)
    #print(nr)
    page=nr.xpath('/html/body/form/div[2]/div[3]/div[1]/div[2]/span[1]/text()')
    print(page)
    ljs=[]
    if not page:
        ljs.append(url)
    else:
        page=page[0]
        page=page.replace("共","")
        page=page.replace("页,到第","")
        page=int(page)
        print(page)

        for x in range(1,page+1):
            lj=f'http://rank.chinaz.com/{wz}-0--0-{x}'
            print(lj)
            ljs.append(lj)
    #print(ljs)
    return ljs

if __name__ == '__main__':
    wz=input("请输入网址链接:")
    urls=hqlj(wz)
    data_list = []
    for url in urls:
        #print(url)
        dat=hqsj(url)
        print(dat)
        data_list.append(dat)

    print(data_list)

    workbook = xlsxwriter.Workbook('e:kami1.xlsx')  # 创建一个Excel文件
    worksheet = workbook.add_worksheet()  # 创建一个sheet

    title = ['关键字', '整体指数', 'pc指数', '移动指数', '百度排名', '收录量', '网页标题', '网页链接']  # 表格title
    worksheet.write_row('A1', title)  # title 写入Excel

    for index, da in enumerate(data_list):
        num0 = str(index + 2)
        row = 'A' + num0
        worksheet.write_row(row, da)
    workbook.close()
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
站长工具功能简介1、JS加密/解密(将代码以js形式进行加密或解密。)2、UTF-8编码转换工具(UTF-8编码转换。)3、Unicode编码转换工具(Unicode编码转换。)4、友情链接(通过本工具可以批量查询指定网站的友情链接在百度的收录、百度快照、PR以及对方是否链接本站,可以识破骗链接。)5 、META信息检测(通过本工具可以快速检测网页的META标签,分析标题、关键词、描述等是否有利于搜索引擎收录。)6、MD5加密工具(对字符串进行MD5加密。)7 、sfz号码值查询(查询sfz所在地、性别及出生日期。)8、HTML/UBB代码转换工具(HTML/UBB代码转换。)9、HTML/JS互转工具(HTML/JS互转。)10 、搜索蜘蛛、机器人模拟工具(通过本工具可以快速模拟搜索引擎蜘蛛访问页面所抓取到的内容信息!)11、关键词密度检测(通过本工具可以快速检测页面关键词出现的数量和密度,更适合蜘蛛的搜索。)12、国家域名查看(查看所有国家的域名。)13、邮编区号查询(查询各地区的邮编及其区号,支持模糊查询。)14、域名Whois查询工具(Whois 简单来说,就是一个用来查询域名是否已经被注册,以及注册域名的详细信息的数据库(如域名所有人、域名注册商、域名注册日期和过期日期等)。通过域名Whois查询,可以查询域名归属者联系方式,以及注册和到期时间。)15、死链接检测/全站PR查询(通过本工具可以快速测试网站的死链接。死链接 - 也称无效链接,即那些不可达到的链接。一个网站存在死链接不是什么好事,首先一个网站如果存在大量的死链接,必将大大损伤网站的整体形象,再者搜索引擎蜘蛛是通过链接来爬行搜索,如果太多链接无法到达,不但收录页面数量会减少,而且你的网站在搜索引擎中的权重会大大降低。该查询可以遍历指定网页的所有链接,并分析每个链接的有效性,找出死链接。)16、搜索引擎收录查询(通过本工具可以快速查询各大搜索引擎对网站的收录数量!)17、搜索引擎反向链接(通过本工具可以快速查询各大搜索引擎对网站的反向连接数量!)18、查询手机号码归属地(查询手机号码的归属地及其手机号类型。)19、SEO综合查询(SEO综合查询。)20 、PR值查询(PR值全称为PageRank(网页级别),取自Google的创始人LarryPage。它是Google排名运算法则(排名公式)的一部分,是Google用于用来标识网页的等级/重要性的一种方法,是Google用来衡量一个网站的好坏的唯一标准。在揉合了诸如Title标识和Keywords标识等所有其它因素之后,Google通过PageRank来调整结果,使那些更具“等级/重要性”的网页在搜索结果中令网站排名获得提升,从而提高搜索结果的相关性和质量。)21、关键词排名查询(通过关键词排名查询,可以快速得到当前网站的关键字在Baidu/Google收录的排名情况!有些关键词在各地的排名是不一样的,就是通常说的关键字地区排名。比如:新闻、人才等很多。所以才提供多个地点的服务器提供大家查询。)22、IP查询(通过该工具可以查询指定IP的物理地址或域名服务器的IP和物理地址,及所在国家或城市,甚至精确到某个网吧,机房或学校等;查出的结果仅供参考!)23、Google收录查询(查询谷歌收录情况。)24、友情链接查询工具(通过本工具可以批量查询指定网站的友情链接在百度的收录、百度快照、PR以及对方是否链接本站,可以识破骗链接。)25、友情链接IP查询工具(通过本工具可以批量查询网站友情链接站点的IP地址、服务器物理地址,帮助站长清楚了解友情链接的服务器物理定位。)26、域名删除查询(.com .net .org等国际域名删除时间,通常在域名到期后的第65或75天,凌晨2点30左右会删除国内域名的删除时间,通常在域名到期后的第15或16天,凌晨4:30会删除友情提示:域名删除时间仅供参考,谢谢!)27、百度收录查询(本工具站长提供指定时间内百度搜索对指定网站的收录情况,包括收录的网页数量和网页的具体情况,让您更好地掌握百度搜索对您的网站收录情况。)28、PR输出值查询(查询网站的PR输出值,PR输出值:带给友情链接的PR值。计算公式:(1 - 0.85) 0.85 * (PR值 / 外链数)。)29、查看网页源代码(通过本工具可以快速查找指定网站的页面源代码。)30、Unix时间戳(Unix timestamp)转换工具(什么是Unix时间戳(Unix timestamp): Unix时间戳(Unix timestamp),或称Unix时间(Unix time)、POSIX时间(POSIX time),是一种时间表示方式,定义为从格林威治时间1970年01月01日00时00分00秒起至现在的总秒数。Unix时间戳不仅被使用在Unix系统、类Unix系统中,也在许多其他操作系统中被广告采用。)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值