数据挖掘之用户画像

最新推荐文章于 2023-12-10 10:15:06 发布

VIP文章弎见

最新推荐文章于 2023-12-10 10:15:06 发布

阅读量2k

点赞数

分类专栏：数据挖掘文章标签：数据挖掘 python 机器学习 word2vec 源码中文预料词向量 Gensim

本文链接：https://blog.csdn.net/sanjianjixiang/article/details/107145453

版权

一. 构造词向量特征

1.1 原始数据编码转换

import pandas as pd
import csv 

# 训练数据
data_path = r'data\user_tag_query.10W.TRAIN'
csvfile = open(data_path + '-1w.csv', 'w')
writer = csv.writer(csvfile)
writer.writerow(['ID', 'age', 'Gender', 'Education', 'QueryList'])
with open(data_path, 'r', encoding = 'gb18030', errors = 'ignore') as f:
    lines = f.readlines()
    for line in lines[0: 10000]:        
        try:
            line.strip()
            data = line.split('\t')
            writedata = [data[0], data[1], data[2], data[3]]
            querystr = ''
            data[-1] = data[-1][:-1]
            for d in data[4:]:
                try:
                    cur_str = d.encode('utf8')
                    cur_str = cur_str.decode('utf8')
                    querystr += cur_str + '\t'
                except:
#                    print(data[0][0:10])
                    continue
            querystr = querystr[:-1]
            writedata.append(querystr)
            writer.writerow(writedata)
        except:
#            print(data[0][0:20])
            continue
            
# 测试数据
data_path = r'data\user_tag_query.10W.TEST'
csvfile = open(data_path + '-1w.csv', 'w')
writer = csv.writer(csvfile)
writer.writerow(['ID', 'age', 'Gender', 'Education', 'QueryList'])
with open(data_path, 'r', encoding = 'gb18030', errors = 'ignore') as f:
    lines = f.readlines()
    for line in lines[0: 10000]:        
        try:
            line.strip()
            data = line.split('\t')
            writedata = [data[0], data[1], data[2], data[3]]
            querystr = ''
            data[-1] = data[-1][:-1]
            for d in data[4:]:
                try:
                    cur_str = d.encode('utf8')
                    cur_str = cur_str.decode('utf8')
                    querystr += cur_str + '\t'
                except:
                    #print(data[0][0:10])
                    continue
            querystr = querystr[:-1]
            writedata.append(querystr)
            writer.writerow(writedata)
        except:
            #print(data[0][0:20])
            continue
            
trainname = r'data\user_tag_query.10W.TRAIN-1w.csv'
testname = r'data\user_tag_query.10W.TEST-1w.csv'
data = pd.read_csv(trainname, encoding = 'gbk')
print(data.shape)
data.head()

在这里插入图片描述

1.2 生成对应的数据表

data.age.to_csv(r'data\train_age.csv', index = False)
data.Gender.to_csv(r'data\train_gender.csv', index = False

最低0.47元/天解锁文章

弎见

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
数据挖掘之用户画像

目录:一. 构造词向量特征1.1 原始数据编码转换1.2 生成对应的数据表1.3 分词与词性过滤二. 构造输入特征2.1 使用Gensim库建立word2vec词向量模型2.2 加载训练好的word2vec模型，求用户搜索结果的平均向量2.3 测试集三. 建立预测模型3.1 基础预测模型(逻辑回归)3.2 随机森林3.3 堆叠模型四. 模型测试一. 构造词向量特征1.1 原始数据编码转换import pandas as pdimport csv# 训练数据data_path = r'data\
复制链接

扫一扫