关于软件分词的几个问题总结

最近初学数据挖掘之文本分析,第一步还是尝试着熟悉一下大致的流程,

关于采集方面的总结请详参之前发的那篇《关于火车头网络爬虫的几个常见问题


第二步是分词,视频教程中有几点值得注意的地方是,

(1)在合并完多个评论文件后,记得用word文档实现空行(^p^p)到空白的替换,防止rost分词系统读到空行就分词结束了

(2)在停用词表更新后应该重新在rost里面打开,防止更新的词表不能被读取使用


实践中存在的问题如下,

(1)首先是,用rost分词后没有出现词性标注,虽然按照那个视频的道理来说是没有也能实现后面的情感分析,但是我实操是

并未成功,后来还是有个朋友说用中科院的ICTCLAS2015分词系统,才实现了词性标注,然后再用rost的情感分析才分析成功

(2)未词性标注前的分词多次后,出现了rost一分析就error(有一次停用词表没有设置之后就一直崩了),删除后再次解压使用

(3)实际采集样本火车头显示是200条,但是分析完是300+条,原因可能是由于id未分离,而采集的时候也未采集完200个id,

因此造成介于200至400之间的一个数据显示

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
开发一个类似于 ChatGPT 的 AI 软件,一般需要以下几个步骤: 1. 数据收集:需要从互联网上收集大量的对话数据,以便训练机器学习模型。可以使用爬虫技术来抓取网页上的对话内容,或者使用已有的公共语料库。 2. 数据清洗:对收集到的数据进行清洗和预处理,以确保数据的质量和一致性。这可能包括去除无用信息、过滤噪声和错误数据、标记语句的结构等。 3. 模型选择:选择合适的机器学习模型来训练 AI 软件。目前,最流行的模型是基于深度学习的神经网络模型,如 GPT-2 和 Transformer。 4. 模型训练:使用清洗后的对话数据来训练机器学习模型。这个过程可能需要使用 GPU 加速,以便更快地训练模型。 5. 模型优化:对训练后的模型进行优化,以改善其性能和准确性。这可能包括调整超参数、增加数据集的大小、使用更复杂的网络结构等。 6. 集成部署:将训练好的模型集成到一个完整的 AI 软件系统中,并将其部署到生产环境中,以供用户使用。 为了开发这样的 AI 软件,你需要掌握以下几个方面的知识: 1. 机器学习和深度学习:了解机器学习和深度学习的基本原理和常用算法,如神经网络、卷积神经网络、循环神经网络等。 2. 自然语言处理:了解自然语言处理的基本原理和技术,如分词、词性标注、命名实体识别、情感分析等。 3. 编程语言和框架:熟悉至少一种编程语言和相关的机器学习框架,如 Python 和 TensorFlow。 4. 数据处理和清洗:熟悉数据处理和清洗的技术,如数据清洗、数据转换、数据可视化等。 5. 并行计算和 GPU 加速:了解并行计算和 GPU 加速的原理和应用,以加快模型训练和优化的速度。 6. 软件工程和部署:了解软件工程和部署的基本原理和技术,如版本控制、测试、部署工具等。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值