快乐的小凯
码龄8年
  • 11,519
    被访问
  • 11
    原创
  • 89,623
    排名
  • 9
    粉丝
  • 0
    铁粉
关注
提问 私信

个人简介:沉下心来

  • 加入CSDN时间: 2014-04-29
博客简介:

koukai6713的博客

查看详细资料
  • 1
    领奖
    总分 28 当月 2
个人成就
  • 获得13次点赞
  • 内容获得4次评论
  • 获得14次收藏
创作历程
  • 1篇
    2022年
  • 5篇
    2020年
  • 5篇
    2019年
成就勋章
TA的专栏
  • 数据处理
    4篇
  • 技术
    9篇
  • 邮箱设置
    1篇
  • 电脑设置
    1篇
  • 安装
    2篇
兴趣领域 设置
  • 数据结构与算法
    排序算法推荐算法
  • 人工智能
    机器学习深度学习神经网络自然语言处理tensorflowpytorch数据分析scikit-learn聚类集成学习迁移学习分类回归
  • 最近
  • 文章
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

不再依赖hadoop/spark等工具就可以快速解决大规模中文分词统计频数问题

本文主要讲的是,我们如何在没有hadoop或者spark这些大数据统计工具的情况,如何对大规模的文章快速的获取分词并且统计词频的方法,尤其是百万级其以上的数据量效果明显。【特别说明】我是经过实测的,可能和自己的机器有关,所以耗时上可能有些差异。但是效果肯定是明显的。好的方法就是要分享给大家。1. 本文涉及到的工具、数据、命令工具:jieba_fast [1] 使用cpython重写了jieba分词库中计算DAG和HMM中的vitrebi函数,速度得到大幅提升。快速利用清华镜像安装jieba_
原创
发布博客 2022.05.27 ·
108 阅读 ·
2 点赞 ·
2 评论

linux中crontab执行shell脚本或者python脚本需要使用activate切换环境

在执行定时任务中时, 发现一个问题, 在我的shell脚本中, 执行python脚本, 发现总是报错, 最后发现时因为 执行环境没有切换正确导致的.以下方式解决这种问题:假如shell脚本:run.sh中的内容如下:#!/usr/bin/env bashsh d1.sh > d1.log 2>&1 && \sh d2.sh > d2.log 2>&1 && \python e1.py > e1.log 2&g..
原创
发布博客 2020.11.20 ·
312 阅读 ·
1 点赞 ·
2 评论

请使用mysql连接池

在初次使用python的pymysql工具包连接mysql数据库的时候, 总是发生数据库连接失败的情况发生, 经过多方确认, 发现这种情况不是自己的连接方式错了, 而是mysql数据库服务器因为网络出现闪断, 导致在查询的时候发生连接出错的情况.这里介绍连接方式, 能够减少这种因为网络问题导致连接出错情况:使用mysql连接池:需要工具: pymysql、DBUtils工具包(有多种连接方式, 这里介绍PooledDB)import pymysqlfrom DBUtils.Po...
原创
发布博客 2020.09.18 ·
27 阅读 ·
1 点赞 ·
0 评论

pandas巧用apply()和lambda方法

假设存在DataFrame存在两列数据col1和col2:df = pd.DataFrame()def function1(row): """ 公共函数 """ print(row.col1) print(row.col2) return row.col1+row.col21. 直接对series使用apply()方法def main1():...
原创
发布博客 2020.05.07 ·
1342 阅读 ·
1 点赞 ·
0 评论

ubuntu系统python3.7环境安装CRF++0.58

1. 准备好CRF++0.58,并且解压文件;同时安装anaconda(个人建议)2. 解压完成之后,cd到文件夹下面,开始执行命令(个人建议sudo命令下执行)第一步执行:sudo ./configure第二步执行:sudo make第三不执行:sudo make install第四步执行:再次cd到python文件夹下面第五步执行:sudo pythonsetup.p...
原创
发布博客 2020.01.05 ·
217 阅读 ·
1 点赞 ·
0 评论

ubuntu系统python3.7环境安装pyltp

1. 准备好pyltp源码安装https://github.com/HIT-SCIR/pyltp,并且解压文件;同时安装anaconda(个人建议)2. 解压完成之后,cd到文件夹下面,开始执行命令(个人建议sudo命令下执行)第一步执行:有时候ubuntu会报错缺少gcc编译,最好先安装sudo apt install python3-pip然后执行:python3setup....
原创
发布博客 2020.01.03 ·
522 阅读 ·
1 点赞 ·
0 评论

开启CPU虚拟化功能

联想、宏碁等品牌的笔记本和台式机默认没有开启虚拟化功能,所以使用Vmware Workstation就不能安装64位的Linux,由于实验需要64位的Linux环境,所以我们要手动开启电脑的虚拟化功能,步骤如下:1. 重启电脑,按【F1】进入bios(其他品牌的电脑可能是F2或F8、F11等),界面如下:2. 按回车继续,按左右间选择【高级】,再按上下键选择【CPU菜单】,如下图:...
原创
发布博客 2019.12.15 ·
2267 阅读 ·
2 点赞 ·
0 评论

hive命令读取json对象数据(下篇)

针对大数据量的朋友更希望可以更快的方法读取字段。1.创建hive表CREATE external TABLE 表名(data string comment 'json数据')ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '
';2.导入数据格式{"key1": "value1", "ke...
原创
发布博客 2019.12.12 ·
134 阅读 ·
1 点赞 ·
0 评论

python将相类不同key的json对象转化为pandas的dataframe(上篇)

1.python添加package包 import json import pandas as pd2. json文件中保存的格式 {"key1": "value1", "key2": "value2", "key3": "value3"} {"key1": "value1", "key2": "value2", "key4": "value4"}3....
原创
发布博客 2019.12.11 ·
158 阅读 ·
1 点赞 ·
0 评论

iphonex苹果手机Exchange邮箱设置同步的邮件天数

苹果手机Exchange邮件设置“同步的邮件天数”步骤:1. 找到手机“设置”;2. 找到“账户与密码”;3. 找到“Exchage”;4. 找到“要同步的邮件天数”;5. 选择要保留的天数....
原创
发布博客 2019.12.01 ·
5766 阅读 ·
1 点赞 ·
0 评论

Fasttext小结

Fasttext经过升级之后发生一些变化, 具体的情况如下:1.数据格式变化:1.1 标签内容: __label__+标签; 标签位置: 旧版放在样本的最后, 新版放在样本的前后均可;1.2 样本内容:汉语词与词之前使用空格分开; 英文单词与单词之前空格分开;1.3 旧版: 样本和标签之间也用tab分开. 新版: 样本和标签之间用空格分开.2.训练方法变化:旧版: c...
原创
发布博客 2019.11.05 ·
111 阅读 ·
1 点赞 ·
0 评论