mysql文本识别_sklearn学习--读取mysql数据源进行训练样本和预测文本分类

最新推荐文章于 2023-03-15 15:52:28 发布

链界游侠

最新推荐文章于 2023-03-15 15:52:28 发布

阅读量191

点赞数

文章标签： mysql文本识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_33103945/article/details/113613091

版权

# coding=utf-8

import re

import pandas as pd

import string

import MySQLdb

import jieba

from sklearn.feature_extraction.text import TfidfTransformer

from sklearn.feature_extraction.text import CountVectorizer

from sklearn.cross_validation import train_test_split

from sklearn.metrics import confusion_matrix

from sklearn import metrics

from sklearn.metrics import roc_curve, auc

from sklearn.svm import LinearSVC

#jieba分词

def jieba_tokenizer(x): return jieba.cut(x,cut_all=True)

def partition(x): return x

def filter_html(s):

d = re.compile(r']+>',re.S)

return d.sub('',s)

#链接mysql数据库

conn=MySQLdb.connect(host='localhost',user='root',passwd='',db='article',port=3306,charset="utf8")

cursor =conn.cursor()

cursor.execute("SET NAMES utf8")

#训练数据样本

data_ret = pd.DataFrame()

for i in range(0,5):

sql = "SELECT a.id,a.title,a.classid,b.artcontent FROM article a,article_txt b WHERE a.id=b.aid AND b.artcontent IS NOT NULL AND a.id>100 ORDER BY a.id ASC LIMIT "+str(i*1000)+",1000"

#print sql

ret = pd.read_sql_query(sql, conn)

data_ret = data_ret.append(ret)

Score = data_ret['classid']

data_ret['artcontent'] = [filter_html(msg) for msg in data_ret['artcontent']]

X_train = data_ret['artcontent']

Y_train = Score.map(partition)

corpus = []

for txt in X_train:

corpus.append(' '.join(jieba_tokenizer(txt)))

count_vect = CountVectorizer()

X_train_counts = count_vect.fit_transform(corpus)

tfidf_transformer = TfidfTransformer()

X_train_tfidf = tfidf_transformer.fit_transform(X_train_counts)

clf = LinearSVC().fit(X_train_tfidf, Y_train)

#可以把clf持久化

#测试数据预测分类

test_set = []

test_txt_data = pd.read_sql_query("SELECT a.id,a.title,a.classid,b.artcontent FROM article a,article_txt b WHERE a.id=b.aid AND b.artcontent IS NOT NULL AND a.id<50 ORDER BY a.id ASC", conn)

X_test = [filter_html(msg) for msg in test_txt_data['artcontent']]

for text in X_test:

text=' '.join(jieba_tokenizer(text))

test_set.append(text)

X_new_counts = count_vect.transform(test_set)

X_test_tfidf = tfidf_transformer.transform(X_new_counts)

result = dict()

result = clf.predict(X_test_tfidf)

for i in range(0, len(result)):

print "ID:"+str(test_txt_data['id'][i])+" -> classid:"+str(result[i])

cursor.close()

conn.close()

分享到：

2016-08-15 15:45

浏览 1016

评论

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
mysql文本识别_sklearn学习--读取mysql数据源进行训练样本和预测文本分类

# coding=utf-8import reimport pandas as pdimport stringimport MySQLdbimport jiebafrom sklearn.feature_extraction.text import TfidfTransformerfrom sklearn.feature_extraction.text import CountVectorizer...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。