要进行中文分词,必须要求数据格式全部都是中文,需求过滤掉特殊符号、标点、英文、数字等。当然了用户可以根据自己的要求过滤自定义字符。
实验环境:python、mysql
实验目的:从数据库读取数据,过滤点无用字符,然后存入到数据库一个表里面。
代码如下:
# -*- coding: UTF-8 -*-
import MySQLdb as mdb
import re
def createStatistics():
""" 创建新的微博内容表 """
try:
con = mdb.connect('localhost', 'root', '数据库密码', '数据库',charset=