自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 不再依赖hadoop/spark等工具就可以快速解决大规模中文分词统计频数问题

本文主要讲的是,我们如何在没有hadoop或者spark这些大数据统计工具的情况,如何对大规模的文章快速的获取分词并且统计词频的方法,尤其是百万级其以上的数据量效果明显。【特别说明】我是经过实测的,可能和自己的机器有关,所以耗时上可能有些差异。但是效果肯定是明显的。好的方法就是要分享给大家。1. 本文涉及到的工具、数据、命令工具:jieba_fast [1] 使用cpython重写了jieba分词库中计算DAG和HMM中的vitrebi函数,速度得到大幅提升。快速利用清华镜像安装jieba_

2022-05-27 23:31:24 318 2

原创 linux中crontab执行shell脚本或者python脚本需要使用activate切换环境

在执行定时任务中时, 发现一个问题, 在我的shell脚本中, 执行python脚本, 发现总是报错, 最后发现时因为 执行环境没有切换正确导致的.以下方式解决这种问题:假如shell脚本:run.sh中的内容如下:#!/usr/bin/env bashsh d1.sh > d1.log 2>&1 && \sh d2.sh > d2.log 2>&1 && \python e1.py > e1.log 2&g..

2020-11-20 18:17:40 1235 5

原创 请使用mysql连接池

在初次使用python的pymysql工具包连接mysql数据库的时候, 总是发生数据库连接失败的情况发生, 经过多方确认, 发现这种情况不是自己的连接方式错了, 而是mysql数据库服务器因为网络出现闪断, 导致在查询的时候发生连接出错的情况.这里介绍连接方式, 能够减少这种因为网络问题导致连接出错情况:使用mysql连接池:需要工具: pymysql、DBUtils工具包(有多种连接方式, 这里介绍PooledDB)import pymysqlfrom DBUtils.Po...

2020-09-18 17:10:54 124

原创 pandas巧用apply()和lambda方法

假设存在DataFrame存在两列数据col1和col2:df = pd.DataFrame()def function1(row): """ 公共函数 """ print(row.col1) print(row.col2) return row.col1+row.col21. 直接对series使用apply()方法def main1():...

2020-05-07 23:37:04 2605

原创 ubuntu系统python3.7环境安装CRF++0.58

1. 准备好CRF++0.58,并且解压文件;同时安装anaconda(个人建议)2. 解压完成之后,cd到文件夹下面,开始执行命令(个人建议sudo命令下执行)第一步执行:sudo ./configure第二步执行:sudo make第三不执行:sudo make install第四步执行:再次cd到python文件夹下面第五步执行:sudo pythonsetup.p...

2020-01-05 15:29:36 356

原创 ubuntu系统python3.7环境安装pyltp

1. 准备好pyltp源码安装https://github.com/HIT-SCIR/pyltp,并且解压文件;同时安装anaconda(个人建议)2. 解压完成之后,cd到文件夹下面,开始执行命令(个人建议sudo命令下执行)第一步执行:有时候ubuntu会报错缺少gcc编译,最好先安装sudo apt install python3-pip然后执行:python3setup....

2020-01-03 01:29:43 789 2

原创 开启CPU虚拟化功能

联想、宏碁等品牌的笔记本和台式机默认没有开启虚拟化功能,所以使用Vmware Workstation就不能安装64位的Linux,由于实验需要64位的Linux环境,所以我们要手动开启电脑的虚拟化功能,步骤如下:1. 重启电脑,按【F1】进入bios(其他品牌的电脑可能是F2或F8、F11等),界面如下:2. 按回车继续,按左右间选择【高级】,再按上下键选择【CPU菜单】,如下图:...

2019-12-15 23:05:49 7528

原创 hive命令读取json对象数据(下篇)

针对大数据量的朋友更希望可以更快的方法读取字段。1.创建hive表CREATE external TABLE 表名(data string comment 'json数据')ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n';2.导入数据格式{"key1": "value1", "ke...

2019-12-12 20:34:45 275

原创 python将相类不同key的json对象转化为pandas的dataframe(上篇)

1.python添加package包 import json import pandas as pd2. json文件中保存的格式 {"key1": "value1", "key2": "value2", "key3": "value3"} {"key1": "value1", "key2": "value2", "key4": "value4"}3....

2019-12-11 17:43:10 299

原创 iphonex苹果手机Exchange邮箱设置同步的邮件天数

苹果手机Exchange邮件设置“同步的邮件天数”步骤:1. 找到手机“设置”;2. 找到“账户与密码”;3. 找到“Exchage”;4. 找到“要同步的邮件天数”;5. 选择要保留的天数....

2019-12-01 00:06:46 8390

原创 Fasttext小结

Fasttext经过升级之后发生一些变化, 具体的情况如下:1.数据格式变化:1.1 标签内容: __label__+标签; 标签位置: 旧版放在样本的最后, 新版放在样本的前后均可;1.2 样本内容:汉语词与词之前使用空格分开; 英文单词与单词之前空格分开;1.3 旧版: 样本和标签之间也用tab分开. 新版: 样本和标签之间用空格分开.2.训练方法变化:旧版: c...

2019-11-05 18:03:21 184

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除