为了更加直观分析一些岗位要求,我们可以利用jieba分词技术对岗位要求内容进行关键字提取,并通过词云技术进行渲染展示
首先我们将sql文件转化成Excel文件
import pandas as pd
import sqlite3
conn = sqlite3.connect("recruit.db")
df = pd.read_sql("select * from recruit",conn)
df.to_excel("职位数据.xlsx")
然后我们将job_detail列提取出来转化成list
因为dateframe对象不能直接被jieba读取,所以我们首先使用np.array()函数把DataFrame转化为np.ndarray(),再利用tolist()函数把np.ndarray()转为list,示例代码如下:
import pandas as pd
import jieba
df = pd.read_excel("职位数据.xlsx")
result = df.loc[:,['job_detail']]
import numpy as np
train_data = np.array(result)
train_list = train_data.tolist()
利用jieba进行分词
print(result_jieba)
stop_words = [w.strip() for w in open("stopword.txt").readlines()]
word_count = []
for word in resul