Python
文章平均质量分 92
涵星同学
Just write down in here.
展开
-
ANTLR实践
“除草帖。翻到了几年前做的一个语言解析的小项目,感觉笔记躺在自己笔记本里挺浪费,放在博客上或许还能体现点价值”。原创 2022-04-20 13:05:27 · 557 阅读 · 0 评论 -
Python3操作数据库
参考:https://www.cnblogs.com/woider/p/5926744.htmlhttps://www.cnblogs.com/mooba/p/6484357.htmlhttp://www.runoob.com/python3/python3-mysql.htmlPyMySQL 是在 Python3.x 版本中用于连接 MySQL 服务器的一个库,Python2中则使用mysqld...原创 2018-03-22 18:22:41 · 1536 阅读 · 3 评论 -
利用Python将文本中的中英文分离
在进行文本分析、提取关键词时,新闻评论等文本通常是中英文及其他语言的混杂,若不加处理直接分析,结果往往差强人意。下面对中英文文本进行分离做一下总结:1、超短文本,ASCII识别。s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's pr...原创 2018-03-29 18:31:28 · 14194 阅读 · 0 评论 -
Python常见字符编码及其之间的转换
参考:Python常见字符编码 + Python常见字符编码间的转换一、Python常见字符编码字符编码的常用种类介绍第一种:ASCII码ASCII(American Standard Code for Information Interchange,美国信息交换标准代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言。它是现今最通用的单字节编码系统,并等同于国际标准ISO/...转载 2018-03-29 17:28:36 · 18981 阅读 · 1 评论 -
分类前之数据预处理
之前在情感分析方法之nltk情感分析器和SVM分类器(二)一文中的第二部分,仅仅记录了最后一步分类器的处理,现在想要把前四步也记录下来。1. 原始语料的规整# -*- coding: utf-8 -*-# 获取正负向语料库与停用词词典# 将原始数据规整到一个txt文件中import os# 文件夹及结果文件的存储路径path = r"D:/file_download/Bai...原创 2018-08-05 20:13:09 · 2214 阅读 · 1 评论 -
人物关系抽取——基于特征工程
本文代码,不得转载。# -*- coding: utf-8 -*-# Author: lx# extract features from the textimport pandas as pdimport numpy as npfrom text1 import CountVectorizerfrom sklearn.feature_extraction.text import...原创 2019-07-15 10:41:36 · 763 阅读 · 0 评论