快乐的小凯-CSDN博客

原创不再依赖hadoop/spark等工具就可以快速解决大规模中文分词统计频数问题

本文主要讲的是，我们如何在没有hadoop或者spark这些大数据统计工具的情况，如何对大规模的文章快速的获取分词并且统计词频的方法，尤其是百万级其以上的数据量效果明显。【特别说明】我是经过实测的，可能和自己的机器有关，所以耗时上可能有些差异。但是效果肯定是明显的。好的方法就是要分享给大家。1. 本文涉及到的工具、数据、命令工具：jieba_fast [1] 使用cpython重写了jieba分词库中计算DAG和HMM中的vitrebi函数，速度得到大幅提升。快速利用清华镜像安装jieba_

2022-05-27 23:31:24 318 2

原创 linux中crontab执行shell脚本或者python脚本需要使用activate切换环境

在执行定时任务中时, 发现一个问题, 在我的shell脚本中, 执行python脚本, 发现总是报错, 最后发现时因为执行环境没有切换正确导致的.以下方式解决这种问题:假如shell脚本:run.sh中的内容如下:#!/usr/bin/env bashsh d1.sh > d1.log 2>&1 && \sh d2.sh > d2.log 2>&1 && \python e1.py > e1.log 2&g..

2020-11-20 18:17:40 1235 5

原创请使用mysql连接池

在初次使用python的pymysql工具包连接mysql数据库的时候, 总是发生数据库连接失败的情况发生, 经过多方确认, 发现这种情况不是自己的连接方式错了, 而是mysql数据库服务器因为网络出现闪断, 导致在查询的时候发生连接出错的情况.这里介绍连接方式, 能够减少这种因为网络问题导致连接出错情况:使用mysql连接池:需要工具: pymysql、DBUtils工具包(有多种连接方式, 这里介绍PooledDB)import pymysqlfrom DBUtils.Po...

2020-09-18 17:10:54 124

原创 pandas巧用apply()和lambda方法

假设存在DataFrame存在两列数据col1和col2:df = pd.DataFrame()def function1(row): """ 公共函数 """ print(row.col1) print(row.col2) return row.col1+row.col21. 直接对series使用apply()方法def main1():...

2020-05-07 23:37:04 2605

原创 ubuntu系统python3.7环境安装CRF++0.58

1. 准备好CRF++0.58，并且解压文件；同时安装anaconda（个人建议）2. 解压完成之后，cd到文件夹下面，开始执行命令（个人建议sudo命令下执行）第一步执行：sudo ./configure第二步执行：sudo make第三不执行：sudo make install第四步执行：再次cd到python文件夹下面第五步执行：sudo pythonsetup.p...

2020-01-05 15:29:36 356

原创 ubuntu系统python3.7环境安装pyltp

1. 准备好pyltp源码安装https://github.com/HIT-SCIR/pyltp，并且解压文件；同时安装anaconda（个人建议）2. 解压完成之后，cd到文件夹下面，开始执行命令（个人建议sudo命令下执行）第一步执行：有时候ubuntu会报错缺少gcc编译，最好先安装sudo apt install python3-pip然后执行：python3setup....

2020-01-03 01:29:43 789 2

原创开启CPU虚拟化功能

联想、宏碁等品牌的笔记本和台式机默认没有开启虚拟化功能，所以使用Vmware Workstation就不能安装64位的Linux，由于实验需要64位的Linux环境，所以我们要手动开启电脑的虚拟化功能，步骤如下：1. 重启电脑，按【F1】进入bios（其他品牌的电脑可能是F2或F8、F11等），界面如下：2. 按回车继续，按左右间选择【高级】，再按上下键选择【CPU菜单】，如下图：...

2019-12-15 23:05:49 7528

原创 hive命令读取json对象数据(下篇)

针对大数据量的朋友更希望可以更快的方法读取字段。1.创建hive表CREATE external TABLE 表名(data string comment 'json数据')ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n';2.导入数据格式{"key1": "value1", "ke...

2019-12-12 20:34:45 275

原创 python将相类不同key的json对象转化为pandas的dataframe(上篇)

1.python添加package包 import json import pandas as pd2. json文件中保存的格式 {"key1": "value1", "key2": "value2", "key3": "value3"} {"key1": "value1", "key2": "value2", "key4": "value4"}3....

2019-12-11 17:43:10 299

原创 iphonex苹果手机Exchange邮箱设置同步的邮件天数

苹果手机Exchange邮件设置“同步的邮件天数”步骤：1. 找到手机“设置”；2. 找到“账户与密码”;3. 找到“Exchage”;4. 找到“要同步的邮件天数”；5. 选择要保留的天数....

2019-12-01 00:06:46 8390

原创 Fasttext小结

Fasttext经过升级之后发生一些变化, 具体的情况如下:1.数据格式变化:1.1 标签内容: __label__+标签; 标签位置: 旧版放在样本的最后, 新版放在样本的前后均可;1.2 样本内容:汉语词与词之前使用空格分开; 英文单词与单词之前空格分开;1.3 旧版: 样本和标签之间也用tab分开. 新版: 样本和标签之间用空格分开.2.训练方法变化:旧版: c...

2019-11-05 18:03:21 184

koukai6713的博客