![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
pyspark
数据分析痴迷者
这个作者很懒,什么都没留下…
展开
-
pyspark之线性回归
创建SparkSession对象 from pyspark.sql import SparkSession saprk = SparkSession.builder.appName('log_reg').getOrCreate() 读取数据集 df = saprk.read.csv("./Linear_regression_dataset.csv", inferSchema=True, header = True) 探究性数据分析 df.printSchema() df.descr原创 2020-12-02 23:54:36 · 2499 阅读 · 0 评论 -
spark之CountVectorizer
CountVectorizer会统计特定文档中单词出现的次数,并且会根据单词的频率进行排序,频率高的排在前面,当频率相同时,则它的位置个人感觉是随机的。因为太过例子跑出来,每一次都不相同。 ##语料被称为文本文档的完整集合。 ##标记化,将指定语句或文本文档的词语集合划分成单位/独立词语的方法被称为标记化 from pyspark.sql import SparkSession####引入对象 创建RDD spark = SparkSession.builder.appName('nlp').ge原创 2020-12-02 22:57:52 · 997 阅读 · 0 评论 -
python spark常用方法总结
###统计行数 df.count() ##获取df的列名: df.columns ###显示当前值 不带参数默认是显示前面20行 df.show() df.show(2, False) ##show括号里面传入参数可以显示查看几行 show(2,False) False 是否全部显示 False 不隐藏 ##查看列的方式 会显示列的数据类型以及列名 df.printSchema() ###查看特定的列 df.select(["key"]).show(5) ###返回每一列的统计指标 df.d.原创 2020-11-25 21:59:09 · 716 阅读 · 0 评论