练习网易新闻排行榜

最新推荐文章于 2021-06-04 05:08:55 发布

qq_32498963

最新推荐文章于 2021-06-04 05:08:55 发布

阅读量209

点赞数

本文链接：https://blog.csdn.net/qq_32498963/article/details/82080546

版权

# -*- coding: utf-8 -*-
import scrapy
from lxml import etree
from hw_project.items import NewsItem

class WangyiSpider(scrapy.Spider):
    name = 'wangyi'
    allowed_domains = ['news.163.com']
    start_urls = ['http://news.163.com/special/0001386F/rank_whole.html']

    def parse(self, response):
        # print(response.text)
        html = response.text
        html_ele = etree.HTML(html)
        div_total_list = html_ele.xpath('/html/body/div[4]/div')[1:3]
        # print(div_total_list)
        for div_total in div_total_list:
            div_table_list = div_total.xpath('./div/div')[1:4]
            for div_table in div_table_list:
                tr_list = div_table.xpath('./table/tr')[1:]
                # print(tr_list)
                for tr in tr_list:
                    try:
                        title = tr.xpath('./td[1]/a')[0].text
                        num_click = tr.xpath('./td[2]')[0].text
                        # print(title,num_click)
                        item = NewsItem()
                        item['title'] = title
                        item['num_click'] = num_click
                        # print(title,num_click)
                        yield  item
                    except:
                        continue

class NewsItem(scrapy.Item):
    title = scrapy.Field()
    num_click = scrapy.Field()

class NewsPipeline(object):
    def __init__(self):
        self.mysql_object = MysqlHelper()

    def process_item(self, item, spider):
        sql = 'insert into data_news (title, num_click) values (%s, %s)'
        data = (item['title'], item['num_click'])
        # print(data)
        self.mysql_object.execute_modify_sql(sql, data)

execute('scrapy crawl wangyi'.split())

qq_32498963

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
练习网易新闻排行榜

# -*- coding: utf-8 -*-import scrapyfrom lxml import etreefrom hw_project.items import NewsItemclass WangyiSpider(scrapy.Spider): name = 'wangyi' allowed_domains = ['news.163.com'] st...
复制链接

扫一扫