数据处理
文章平均质量分 67
快乐的小凯
坚持改变一切
展开
-
不再依赖hadoop/spark等工具就可以快速解决大规模中文分词统计频数问题
本文主要讲的是,我们如何在没有hadoop或者spark这些大数据统计工具的情况,如何对大规模的文章快速的获取分词并且统计词频的方法,尤其是百万级其以上的数据量效果明显。【特别说明】我是经过实测的,可能和自己的机器有关,所以耗时上可能有些差异。但是效果肯定是明显的。好的方法就是要分享给大家。1. 本文涉及到的工具、数据、命令工具:jieba_fast [1] 使用cpython重写了jieba分词库中计算DAG和HMM中的vitrebi函数,速度得到大幅提升。快速利用清华镜像安装jieba_原创 2022-05-27 23:31:24 · 363 阅读 · 2 评论 -
pandas巧用apply()和lambda方法
假设存在DataFrame存在两列数据col1和col2:df = pd.DataFrame()def function1(row): """ 公共函数 """ print(row.col1) print(row.col2) return row.col1+row.col21. 直接对series使用apply()方法def main1():...原创 2020-05-07 23:37:04 · 2653 阅读 · 0 评论 -
hive命令读取json对象数据(下篇)
针对大数据量的朋友更希望可以更快的方法读取字段。1.创建hive表CREATE external TABLE 表名(data string comment 'json数据')ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n';2.导入数据格式{"key1": "value1", "ke...原创 2019-12-12 20:34:45 · 293 阅读 · 0 评论 -
python将相类不同key的json对象转化为pandas的dataframe(上篇)
1.python添加package包 import json import pandas as pd2. json文件中保存的格式 {"key1": "value1", "key2": "value2", "key3": "value3"} {"key1": "value1", "key2": "value2", "key4": "value4"}3....原创 2019-12-11 17:43:10 · 319 阅读 · 0 评论