Pytorch-中文文本分类

最新推荐文章于 2024-01-26 20:51:47 发布

Douzi1024

最新推荐文章于 2024-01-26 20:51:47 发布

阅读量393

点赞数

本文链接：https://blog.csdn.net/Xiao_CangTian/article/details/108115337

版权

该博客主要介绍如何使用Pytorch进行中文文本的分类任务，首先从爬取JD的商品评论数据开始。

摘要由CSDN通过智能技术生成

1. 爬虫

JD.py

import requests
from urllib.parse import quote
from urllib.parse import urlencode
from lxml import etree
import logging
import json
import time

class JDSpider:
    # 爬虫实现类：传入商品类别（如手机、电脑），构造实例。然后调用getData爬取数据
    def __init__(self, categlory):
        self.startUrl = "https://search.jd.com/Search?keyword=%s&enc=utf-8" % (quote(categlory))  # jD起始搜索页面
        self.commentBaseUrl = "https://club.jd.com/comment/productPageComments.action?"
        self.headers = {
            "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36"
        }
        self.productsId = self.getId()
        self.comtype = {0: "nagetive", 1: "medium