xpath代码

import requests
from lxml import etree
import pymysql


class qinghua():
    def __init__(self):

        self.headers={
            'Referer': 'http://www.ainicr.cn/',
            'Cookie':'UM_distinctid=17c96621588508-0006f186e395d8-513c1f42-154ac4-17c96621589136; Hm_lvt_eaa57ca47dacb4ad4f5a257001a3457c=1634662821,1634814827,1634814835,1634814842; BAIDU_SSP_lcr=https://www.baidu.com/link?url=f0jkJpuxWbNMN5o-TVZpgtW51twJHd2gfcZBZml6eF_&wd=&eqid=c67318b700011ae500000003617269fa; PHPSESSID=u2p24cmnb3ai3oa3qpughkqqo5; CNZZDATA1272896529=1159959131-1634602421-https%253A%252F%252Fwww.baidu.com%252F%7C1634888309',
            'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36 Edg/94.0.992.50'
        }
        self.kuli=pymysql.connect(user='root',password='kobe123456',database='klkl',charset='utf8')
        self.cursor=self.kuli.cursor()

    def get_data(self,url):
        response=requests.get(url,headers=self.headers)
        return response.text
       # print(response.text)

    #解析
    def parse_url(self,data):
        lebron=etree.HTML(data)
        kobe=lebron.xpath('//div[@class="item"]//div/a/@href')
        # print(kobe)
        return kobe


    # 解析内容
    def parse_data(self,url):
        qinghua_data=self.get_data(url)
       # print(qinghua_data)
        pllp=etree.HTML(qinghua_data)
        kobe1=pllp.xpath('//div[@class="stbody first"]//p/text()|//div[@class="stbody "]//p/text()')
        #print(kobe1)
        for p in kobe1:
            print(p)
            self.save_mysql(p)


    # 保存数据
    def save_mysql(self,qinghua):
        sql = 'insert into asas(text) value(%s)'
        self.cursor.execute(sql,[qinghua])
        self.kuli.commit()


    def main(self):
        data=self.get_data(url)
        kobe=self.parse_url(data)
        for i in kobe:

            self.parse_data(i)


if __name__ == '__main__':
    #url = 'http://www.ainicr.cn/qh/t83.html'
    url_list=[
        'http://www.ainicr.cn/qh/5987.html',
        'http://www.ainicr.cn/qh/t4.html',
        'http://www.ainicr.cn/qh/t13.html',
        'http://www.ainicr.cn/qh/t8.html',
    ]
    for url in url_list:

        abc=qinghua()
        abc.main()


 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值