语译分西
码龄7年
关注
提问 私信
  • 博客:95,078
    问答:8,974
    104,052
    总访问量
  • 55
    原创
  • 1,134,632
    排名
  • 97
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2018-05-08
博客简介:

weixin_42167712的博客

查看详细资料
个人成就
  • 获得53次点赞
  • 内容获得14次评论
  • 获得302次收藏
  • 代码片获得481次分享
创作历程
  • 1篇
    2023年
  • 26篇
    2021年
  • 24篇
    2020年
  • 22篇
    2019年
成就勋章
TA的专栏
  • 神经网络算法及实战
    5篇
  • 数据预览及可视化
    4篇
  • 文本挖掘,情感分类
    24篇
  • 分类回归算法及实战
    5篇
  • python笔记
    8篇
  • 调查问卷处理分析
    8篇
  • 数据分析
    7篇
  • 推荐系统笔记
    1篇
  • SQL数据库
    3篇
  • 模型评估
    1篇
  • 填坑/代码片段/其他
    2篇
  • 聚类算法
    4篇
  • Jupyter
    1篇
创作活动更多

新星杯·14天创作挑战营·第9期

这是一个以写作博客为目的的创作活动,旨在鼓励大学生博主们挖掘自己的创作潜能,展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴,那么,快来参加吧!我们一起发掘写作的魅力,书写出属于我们的故事。我们诚挚邀请你们参加为期14天的创作挑战赛! 注: 1、参赛者可以进入活动群进行交流、分享创作心得,互相鼓励与支持(开卷),答疑及活动群请见 https://bbs.csdn.net/topics/619626357 2、文章质量分查询:https://www.csdn.net/qc

473人参与 去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

问卷数据分析流程

文章目录一、数据合并1. 读取数据2. 数据预览二、数据清洗1. 检验ID是否重复,剔除ID重复项2. 剔除填写时间小于xx分钟的值三、数据清洗1. 将问卷编码后的code解码,还原成原来的选项一、数据合并1. 读取数据import pandas as pddata = pd.read_excel('模块化床CMF调研_数据合并_202203.xlsx')2. 数据预览二、数据清洗1. 检验ID是否重复,剔除ID重复项检查是否有重复项,若无,返回0print('ID重复的个数:',dat
原创
发布博客 2023.02.17 ·
1587 阅读 ·
0 点赞 ·
0 评论 ·
16 收藏

将excel数据格式转成tableau

import pandas as pddata = pd.read_excel('世界各国人口统计数据_2000-2020(世界银行).xlsx')data.head()print(data.columns.tolist())# 将上面显示出来的列名列表,选出几列作为主类别,此类别output = data.melt(id_vars=['Country Name','Country Code', '国家/地区名称'])outputoutput.to_excel('世界人口统计数据
原创
发布博客 2021.08.03 ·
611 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

桌面研究-数据源

文章目录1.各国每年人口统计表2.各国年龄结构表3. 国家简介4.城镇化率5.美国房屋统计数据1.各国每年人口统计表1.世界人口表2.世界银行人口统计表2.各国年龄结构表世界年龄分布表CIA的年龄结构数据3. 国家简介1.CIA国家简介4.城镇化率1.世界银行数据2.世界人口、城镇化率5.美国房屋统计数据1.美国房屋统计数据2.statista美国房屋数据...
原创
发布博客 2021.07.13 ·
403 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

问卷:批量处理问卷【单选题】X【策略人群】得出占比、频数、TGI

文章目录1. 导入数据,打印数据属性列表2. 获得单选题列表3.检查每一列是否都是int格式,不是的进行处理4.定义寻找非空值、非跳过的样本的函数5.主程序6.选择一个问卷问题的分析结果进行预览7.给选项重命名,并且将选项值只保留数字索引8.将选项从数字索引转换成实际的问卷选项字符串9.批量将每一题的分析结果导出到一个excel中的不同sheet1. 导入数据,打印数据属性列表import pandas as pdoriginal_data = pd.read_excel('19.新策略人群标注问卷数
原创
发布博客 2021.06.21 ·
209 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

问卷:策略人群划分

# 年龄18-24,购买力1/2/3def customer_seg(purchase,city,age,sex): # Z世代 if age == '18-24岁' and (purchase == 1 or purchase ==2 or purchase ==3): return 'Z世代' # 小镇百姓:25-44,购买力1,2;城市等级5,6 if (age == '25-29岁' or age == '30-34岁' or age ==
原创
发布博客 2021.06.19 ·
1146 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

问卷:问卷星【来源详情】ID,靠左补齐成8位数

data['来源详情'] = data['来源详情'].str.pad(width=8,side='left',fillchar='0')
原创
发布博客 2021.06.19 ·
1604 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

问卷:《问卷星》+《微调查》的【单选题】合并

问卷星和微调查两个调查问卷的题目略有不同,问卷星:单纯的是题目,微调查:会有题目题号和选项问卷星:“您的年龄是?”微调查:“3 -【第1题-单选题】 您的年龄是?(1)18岁以下(2)18-24岁(3)25-29岁(4)30-34岁(5)35-39岁(6)40-44岁(7)45-49岁(8)50-54岁(9)55-59岁(10)60岁及以上”所以要统一题目名称才能进行合并1.找出问卷星里的单选题,然后写成列表2.筛选出微调查的单选列表,检查顺序、数量是否跟问卷星的一样3.
原创
发布博客 2021.06.19 ·
1106 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

问卷:筛选出【微调查】问卷数据中的【单选题】

import pandas as pddata = pd.read_excel('微调查.xlsx')col_list = data.columns.to_list() #提取问卷的属性名称列表danxuan_list = []# 找出属性名中包含“单选题”字样的属性for i in col_list: if '单选题' in i: danxuan_list.append(i.strip())...
原创
发布博客 2021.06.19 ·
195 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

问卷:单选题的选项转换成1,2,3,4...数值

dict0 = {'新房': 4, '现住房': 3, '出租房(我是房东)': 2, '出租房(我是租客)':1 } dict1 = {'2000元以下':0,'2000-3999元':1,'4000-5999元':2,'6000-7999元':3,'xxxx':4,}dict2 = {'未婚,与父母同住':1,'单身/情侣同居':2,'已婚,两口之家':3,'二胎家庭':4,'三代同堂':5,'一家三口':6}df2['购买场景'] = df2['购买场景'].map(dict0)df2[
原创
发布博客 2021.06.19 ·
1469 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

问卷:城市名 转换成 城市线:一线、新一线、二三四五线

文章目录导入数据遇到问题1:列名太长,要替换遇到问题2:区名称、城市名混乱遇到问题3:去空格制作{城市:城市线} 字典,然后匹配统计问卷总体样本的城市线分布找出没有标注上城市线的样本,查看原因导入数据import pandas as pdcity = pd.read_excel('!202006中国城市商业魅力排行榜完整排名排名(337城市)-第一财经.xlsx')# 读取问卷数据data = pd.read_excel('微调查40899_readable (1492).xlsx')dat
原创
发布博客 2021.06.19 ·
927 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

问卷:问卷星文本导出数据的多选题,排序题的处理拆分

问卷星问卷如果选择的是文本导出而非序号导出,多选题和排序题会用 | 分割符号隔开各个选项以后应该不会用文本导出的数据了,用序号数据首先要找出要处理的选择题的选项有哪些然后判断选项是否出现multi_question_list = ['实用派','自在派','佛系一族','精打细算族','奋斗族']def find_option(x,option): if option in x: return option else: return ''
原创
发布博客 2021.06.19 ·
5792 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

推荐系统(1.介绍)

文章目录一、推荐系统介绍及应用1.1 推荐系统的目标1.2 推荐系统常用词1.3 推荐系统经典流程1.4 推荐系统难点与挑战1.5 推荐系统常用技术一、推荐系统介绍及应用1.1 推荐系统的目标1.2 推荐系统常用词item: 商品,例如要从天猫购买一个欧式风格的桌子Embedding:隐向量,将一个用户的各种属性信息:身高、体重、年龄、喜好颜色、职业。。。转换成高维向量召回:要返回的结果,例如从100万个商品中选取100个比较可能的产品打分:要对商品进行排序需要有一个标准;重排:最终结果排序
原创
发布博客 2021.03.30 ·
227 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

用spacy切词,筛选特定词性

import spacynlp = spacy.load("en_core_web_lg")# 读取停用词列表from nltk.corpus import stopwords stopword_list = list(stopwords.words('english'))add_stopword_list = ["'s",'also','even']stopword_list+=add_stopword_list# pos_tag = ['JJ','JJR','JJS','RB','R
原创
发布博客 2021.02.01 ·
926 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

Semeval 14 restaurant 实战

文章目录1.准备数据1.1 准备训练数据1.2 准备测试数据2.训练模型2.1 导入模块2.2 限制tensorflow使用GPU2.3 加载数据集2.3 对文本进行切词2.4 将term,[SEP] 添加到分词后的文本列表中2.5 查看每个句子分词后有多长,来决定max_length(可选)2.6 将训练数据分出一部分作为验证集,然后分成x,y2.7 创建数据迭代器2.8 构建模型2.9 模型保存2.10 模型评估3.加载训练好的模型,进行应用1.准备数据1.1 准备训练数据用的是原始的xml数据
原创
发布博客 2021.01.27 ·
1052 阅读 ·
1 点赞 ·
0 评论 ·
6 收藏

B站tableau教学(5-7)

文章目录1. 超市销售情况地图2. 自定义形状图1. 超市销售情况地图视频地址使用数据:全球超市订单数据.csv想看各个国家的销售额情况如何:1.首先将数据集里的两个表内连接2.接着将国家/地区 从字符串格式转换成地理角色格式 (小地球符号)3.将国家/地区 和 销售额分别放进行和列,再在智能图表中选择地图4.可以把国家/地区 拖进 标签,让其显示国家名称仔细看地图里有两个国家名称5.点击地图→地图层,然后勾选掉国家/地区名称6.右下角会显示有未知,意味着有些国家地名没被识
原创
发布博客 2021.04.04 ·
564 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Simple Transformers文档翻译(提示和技巧)

文章目录1. 可视化支持 Visualization support2. 提早停止训练 Early stopping3.其他模型评估指标 Additional Evaluation Metrics4. 对模型预测结果进行可视化 Simple-Viewer5. 超参数优化5.1 设置 sweep1.method:明确搜索策略2. metric:明确要优化的指标metric3.parameters: 指定超参数和对应的值5.2 初始化sweep5.3 准备数据和默认的模型配置(举例)5.4 设置训练函数5.5
翻译
发布博客 2021.01.19 ·
1878 阅读 ·
4 点赞 ·
0 评论 ·
10 收藏

B站tableau教学(1-4)

目录第一节1.1数据导入界面(起始界面)及数据源界面1.2 工作表(一切的基础)1.3 条形图1.4 等级堆积柱形图1.5 直方图第二节2.1数据前处理2.2绘制折线图2.3饼图与环形图第一节reference:https://www.bilibili.com/video/av66028664?from=search&seid=176711717195583136061.1数据导入界...
原创
发布博客 2021.01.17 ·
905 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Pytorch入门实战教程(一)(二)(三)

文章目录1.Pytorch 和 Tensorflow区别2.利用GPU进行加速运算3.Pytorch提供的自动求导功能4.Pytorch提供了许多常用的网络层5. 回归的目标损失函数6.MINST 实战1.Pytorch 和 Tensorflow区别Pytorch 是动态图,你一旦用代码将神经网络架构搭建起来。那么就可以直接运行Tensorflow是静态图,用代码将神经网络架构写出来后,还要专门写一段运行的代码2.利用GPU进行加速运算import torchimport timep
原创
发布博客 2021.01.14 ·
878 阅读 ·
1 点赞 ·
0 评论 ·
12 收藏

基于Aspect的情感分析

文章目录1.数据预处理1.1数据集1.2 数据预处理步骤2.主题建模Topic modelling3.情感分析4.观察结果当创建一个成功的商业,其中最重要的元素是与顾客的沟通和关系。然而主要挑战是,随着用户基数的不断提升,产生的数据量也越来越庞大,而且大部分是以自然语言的形式存在。这些数据来自用户的反馈会来自社交媒体,顾客传达他们的想法和意见。而真正的挑战是自动将这些数据解析并组织成更易消化和可行的见解。其中一种方法是情感分析。一个意见opinion可以定义为四种元素的组合(实体,意见持有者,主张,情
翻译
发布博客 2021.01.08 ·
1566 阅读 ·
3 点赞 ·
1 评论 ·
14 收藏

7.GitHub pytorch sentiment analysis(词向量详解embedding)

文章目录1.embedding 概述2.加载GloVe词向量2.1 我们可以看看属性靠前的10个词分别是2.2 看某个词的索引是2.3 获取某个词的词向量3. 查找某个词最近的有哪些词(查找近义词)4.类比5. 纠正拼写错误1.embedding 概述Embeddings是将一个one-hot encoded 的稀疏向量转化成一个更小的实数向量。这些word embeddings的一个重要概念是,越类似的词靠得越近,也就是欧氏距离越近。举例:“I purchased some items at the
翻译
发布博客 2021.01.07 ·
580 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏
加载更多