python
smartbits_mark
在大数据的道路上越走越远
展开
-
Pyspark UDF(user define functions) 在Pyspark DataFrame 使用UDF,也可以先转化rdd lambda apply
from pyspark.sql import SparkSessionfrom pyspark.sql import functionsimport pyspark.sql.functions as Ffrom pyspark.sql.functions import udffrom pyspark.sql.types import StringTypedf = spark.cre...原创 2020-04-06 12:08:55 · 408 阅读 · 0 评论 -
Jupyter notebook 导出的csv 文件是乱码的解决方案
本人使用的是Jupyter notebook 编辑器做数据分析的,API 是pyspark,有时候需要把 pyspark DataFrame 转成 pandas Dataframe,然后转成CSV 文件去汇报工作,发现有中文导出的时候是乱码,问了运维的同事的他们已经设置成了UTF-8 的模式,我在代码里也设置了UTF-8 .后来发现是CSV的问题,先将CSV用txt记事本打开,然后选择ANSI编码...原创 2019-02-22 09:39:26 · 8062 阅读 · 1 评论 -
Python的格式化输出,基本运算符,编码 (基础知识巩固)
一. 格式化输出现在有以下需求,让用户输入name, age, job,hobby 然后输出如下所示: -----------info of Alex Li-----------Name : Alex LiAge : 22job : TeacherHobbie : gril----------------end----------------- 你怎么实现呢?你会发现...原创 2019-02-25 22:16:03 · 394 阅读 · 0 评论 -
Python基本数据类型(基础知识巩固)
一.python基本数据类型1. int ==> 整数. 主要用来进行数学运算2. str ==> 字符串, 可以保存少量数据并进行相应的操作3. bool==>判断真假, True, False4. list==> 存储大量数据.用[ ]表示5. tuple=> 元组, 不可以发生改变 用( )表示6. dict==> 字典, 保存键值对, 一样可...原创 2019-02-25 22:47:02 · 267 阅读 · 0 评论 -
Python列表(基础知识巩固)
本节主要内容:1. 列表2. 列表的增删改查3. 列表的嵌套4. 元组和元组嵌套5. range一. 列表1.1 列表的介绍列表是python的基础数据类型之一 ,其他编程语言也有类似的数据类型. 比如JS中的数组, java中的数组等等. 它是以[ ]括起来, 每个元素用' , '隔开而且可以存放各种数据类型:lst = [1, '哈哈', "吼吼", [1,8,0,"百度"...原创 2019-02-26 21:17:07 · 240 阅读 · 0 评论 -
用python 读取txt文件遇到的问题
import pandas as pdmovies_names = ['movie_id', 'title', 'genres']movies = pd.read_table('movies.txt', sep='::', header=None, names=movies_names)movies.head()程序报错C:\Users\jinpeng\Anaconda3\lib...原创 2019-03-30 21:12:53 · 1724 阅读 · 0 评论