nlp
晴空_万里
条条框框框住的是行为,而不是大脑。
展开
-
【huggingface transformers笔记】基于Bert的中文电商文本分类
基于Bert的中文电商文本分类原创 2022-10-31 00:12:39 · 596 阅读 · 1 评论 -
fasttext进行短文本分类实战(今日头条数据集)
1、数据清洗# -*- coding: utf-8 -*-# @Time : 2021/7/13 12:57# @Author : Li Daji# @File : text_cleaner.pyfrom types import MethodType, FunctionTypeimport jieba# 导入用于繁体/简体转换的包from langconv import *def clean_txt(raw): fil = re.compile(r"[^0-原创 2021-11-06 19:35:02 · 3256 阅读 · 4 评论 -
python多进程实现jieba分词
使用多进程提升python的效率是非常有用的,抽时间来学习下。说明:1、使用python multiprocessing模块下的Pool具体用法参考官方文档:https://docs.python.org/zh-cn/3/library/multiprocessing.html2、思路是将dataframe拆成小块喂入pool中,由于参数是多个,用到了functools下的partial,具体意义可以参考网上资料3、数据集来自今日头条公开的新闻数据集(约38W条数据)代码如下(文件路径隐去):原创 2022-04-07 21:53:38 · 874 阅读 · 0 评论