![](https://img-blog.csdnimg.cn/20190623104631307.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Python小白的进阶之路
主要记录Python相关的基础使用
J小白Y
一只想学习更多知识的小白,研究方向:大数据、人工智能(推荐算法、NLP等)!目标:每天进步一点点~
生活是你和自己竞争,而不是别人!
展开
-
【Pyspark】DataFrame存为hive表及hive表的查询方式
使用Pyspark训练模型后,经常要将模型的训练结果输出为hive表,这篇博文就介绍如何将dataframe数据存为hive表。 想把DataFrame数据存为hive数据,就需要用到HiveContext,下面看下如何使用:#!/usr/bin/python# -*- coding: utf-8 -*-from pyspark.sql import Rowfrom pyspark.ml.linalg import Vectorsimport numpy as...原创 2020-06-12 17:40:20 · 3350 阅读 · 0 评论 -
【Pyspark】list转为dataframe报错:TypeError:not supported type: class numpy.float64
在PySpark中经常会使用到dataframe数据形式,本篇博文主要介绍,将list转为dataframe时,遇到的数据类型问题。有如下一个list:[(22.31670676205784, 15.00427254361571, 14.274554462639939, -48.011495169271186)]正常情况下:#!/usr/bin/python# -*- coding: utf-8 -*-from pyspark.sql import Rowfrom ...原创 2020-06-12 17:15:44 · 4272 阅读 · 0 评论 -
【PySpark】Spark 2.0系列SparkSession与Spark 2.0之前版本中的SQLContext和HiveContext的联系与区别
目录1.Spark在2.0版本和之前版本的入口2.SQLContext的使用3.HiveContext的使用4.SparkSession的三种创建方式4.1SparkSession直接builder方式4.2SparkConf的builder方式4.3SparkContext方式1.Spark在2.0版本和之前版本的入口 在Spark2.0之前,sparkContext是进入Spark的切入点。众所周知的RDD的创建和操作就需要使用sparkCont...原创 2020-05-29 18:56:01 · 2369 阅读 · 0 评论 -
【PySpark】启动SparkContext报错--Cannot run multiple SparkContexts at once; existing SparkContext(...)
在学习和使用PySpark之初,可能都会遇到这个报错:看下场景:场景一:创建SparkContext的最基本方法,只需要传递两个参数:(1)集群URL:告诉Spark如何连接到集群上,使用local可以让spark运行在单机单线程上。(2)应用名:使用"monter",当连接到一个集群时,这个值可以在集群管理器的用户界面中找到你的应用。from pyspark import SparkConf, SparkContextspark = SparkConf().s...原创 2020-05-12 09:37:03 · 7197 阅读 · 0 评论 -
【PySpark】将本地CSV文件读为DataFrame
本篇主要介绍两种将本地文件读为DataFrame的方法。方法一:其中,format的第一个参数是固定的,代表读取csv文件,load后面写入自己存储的路径即可from pyspark import SparkContextfrom pyspark.sql import SQLContextsc = SparkContext()sqlContext = SQLContext(sc)df = sqlContext.read.format('com.databricks.s...原创 2020-05-08 18:52:16 · 4635 阅读 · 1 评论 -
DataFrame系列3之Pandas.DataFrame操作表连接三种方式:merge, join, concat
目录1.concat2.JOIN3.merge 作为DataFrame系列的第三部分,主要是对两个DataFrame之间的关联进行介绍。以下面两个DataFrame为例进行语法的介绍:df_1 = pd.read_csv('D:/traindatas/map_1.csv', sep=',', header='infer') # 测试集df_2 = pd...原创 2020-04-16 20:00:14 · 2174 阅读 · 0 评论 -
【Python】DataFrame系列2之常用方法和函数
本篇是DataFrame系列博文的,常用的基础方法。以下面dataframe为案例:1.查看有哪些列data.columnsOut[183]: Index(['a', 'b', 'c', 'd'], dtype='object')2.查看索引data.indexOut[185]: RangeIndex(start=0, stop=2, step=1)...原创 2020-04-07 19:26:05 · 515 阅读 · 0 评论 -
【Python】DataFrame系列1之创建方法和其他数据类型list\array之间的转换
Python中最常用的数据形式莫过于DataFrame了,基本上每次使用多多少少都要百度一下,终于想起了写一个DataFrame的系列文章,把DataFrame使用过的一些方法做一个系列文章,方便以后的查阅,也做一个分享。这篇博文主要介绍,DataFrame的创建方式。目录1.read_csv()方法2.read_table()方法3.read_excel()方法...原创 2020-04-03 18:09:27 · 841 阅读 · 0 评论 -
【Python】字典的使用方法--get()方法
在之前博文中,已经介绍过字典的遍历方法,为什么要写这篇博文呢?是因为当我们试图访问一个字典中不存在的键时,可能发生意外,这篇博文主要介绍get方法如何优雅的处理这种问题。目录1.if-else方式2.三元表达式3.get()方式 首先,创建一个字典dicts = dict([('张三',25), ('李四',20), ('王洼',18)...原创 2020-04-03 16:24:35 · 1398 阅读 · 0 评论 -
【Python】Print的进阶用法
在Python中我们经常使用到Print操作,那么,我们真的了解这个函数嘛?Print函数有很多种用法,如何优雅的使用print的呢?本文,都针对该列表进行输出,看下print的强大吧~values=['a','b','c']目录1.常规用法1.1全部输出1.2带有解释的输出2.进阶用法2.1全部输出2.2带有解释的输出1.常规用法1....原创 2020-04-03 15:46:03 · 693 阅读 · 0 评论 -
【Python】Pycharm使用技巧
Pycharm里面有一些快捷键和使用技巧会使我们阅读、编写代码达到事半功倍的效果!我这里说的是windows版本~目录1.一键规范代码格式2.单行OR多行注释3.插入常用的代码4.直接运行当前代码5.以Debug(调试)模式运行代码6.在Pycharm展现双屏效果1.一键规范代码格式Command+Option+L #一键 pep82.单行OR...原创 2020-03-27 18:09:11 · 384 阅读 · 0 评论 -
【Python】Linux环境下安装anaconda3
windows下安装anaconda相信大家都装过,小白最近需要在Linux环境下使用python,因此就研究了一下如何安装,不过安装过程中遇到几个问题,这里也会详细描述下如何解决。目录1.下载安装包2.安装包上传到服务器3.在安装包路径下安装4.验证是否安装成功4.1anaconda命令找不到怎么办?4.2source ~/.bashrc失败?5.查看...原创 2020-03-20 12:27:51 · 1150 阅读 · 0 评论 -
【Python】txt文件操作详解
在使用Python的过程中,需要对各种文件进行处理如excel、csv、txt等,这篇文章主要总结对txt文件的各种操作。目录1.打开文件--open()方法2.读文件--read()方法3.写文件--write()方法4.关闭文件--close()方法5.文件定位5.1文件内的当前位置--tell()方法5.2改变当前文件的位置--seek()方...原创 2020-03-18 10:18:19 · 4985 阅读 · 0 评论 -
【Python】dict和list相互转换(字典和列表相互转换)
在之前博文(https://blog.csdn.net/Jarry_cm/article/details/104914405)中,已经介绍了String和List之间的转换,这篇主要介绍dict和list之间的转换。目录1.List转dict1.1For循环1.2嵌套列表1.3zip函数2.dict转List2.1list函数--取key值2.2li...原创 2020-03-17 18:33:11 · 74072 阅读 · 2 评论 -
【Python】list和string的相互转换
1.String转List2.List转String原创 2020-03-17 09:44:07 · 1673 阅读 · 0 评论 -
【Python】filter函数的应用
Python中有很多内置函数,内置函数会使代码变得更加精简且高效。这篇博文主要介绍filter函数。filter()函数,filter英文含义为过滤,在Python中用于过滤序列,过滤掉不符合条件的元素,返回由符合条件元素组成的新列表。该函数有两个参数,一个为函数,一个为序列,序列的每个元素作为参数传递给函数进行判断,然后返回。函数形式:filter(function,...原创 2020-03-17 09:14:35 · 470 阅读 · 0 评论 -
【NLP】Python词性标注之词性解释
小白在之前文章(https://blog.csdn.net/Jarry_cm/article/details/102903970)已经写过jieba词性标注的文章。在词性标注后,看到一堆英文简写的词性,怎样一一对应又成了难题,这里,小白总结了一下词性的对应关系。1.中文标注和含义对应关系标注 名称 含义 Ag 形语素 形容词性语素。形容词代码为a,语...原创 2020-03-13 10:24:19 · 3804 阅读 · 0 评论 -
【Pytho】报错UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 2: illegal multiby终极解决方案
最近小白在做中文情感分析的时候,经常使用到文件打开出错的问题,尝试了很多方式,都不成功,这里写下自己的新路历程。1.首先,下面是正常的读文件代码sen_file = open('D:/Users/Downloads/BosonNLP_sentiment_score.txt','r')sen_list = sen_file.readlines()报错如下:网上随便...原创 2020-03-03 12:24:31 · 2976 阅读 · 1 评论 -
【Python】PySpark安装
小白试了很多方法,直接pip install pyspark失败了,应该是安装包太大了,在anaconda主页上,点击下载安装,界面没有反应,因此就使用了离线下载的方式。首先pip install时,你可以记录下自己需要下载的版本,然后去下面的网址(https://pypi.org/)中去搜索,下载相应的版本。下载完成后,pip install即可...原创 2019-12-13 19:56:36 · 3483 阅读 · 0 评论 -
【Python】dataframe列数据的修改(map函数)
在对数据进行分析时,如果某一列的值较为分散,那么在画柱状图或者分析时,我们大多会对这列数据处理,处理后再进行分析。这就涉及到对DataFrame的列的处理。 看以下的场景,处理前:df_1 = df[(df['country']== 1)]sns.barplot(x = df_1['hotel_score'], y = df_1['uv'])plt.show(...原创 2019-12-03 19:03:39 · 8243 阅读 · 0 评论 -
【Python】异常处理方法(try-except)
小白在之前文章中有列举过常用异常的情况和产生原因的案例,这篇博文,小白主要总结一下异常处理的方法。首先,我们如何发现异常?我们看下小白的这个案例,traceback:回溯,追溯,其实就是从这个里面定位到你哪一行引发的异常,下面有异常类和具体的错误信息,先告诉我们是哪一类的异常,找到这个后,可以查询小白的之前博文,看下自己的异常属于哪个范围,然后看到具体报错信息,定位错误。当然,这个...原创 2019-11-26 20:44:30 · 714 阅读 · 0 评论 -
【Python】标准异常及常用异常实例
在Python开发过程中,经常会遇到各种各样的报错情况,所以了解Python中的各种报错就很有必要。小白最近整理了一下Python中经常遇到的报错情况,并列举了案例,如下表格,还有一些报错情况,待尝试~AssertionError 断言语句失败:当 assert 关键字后的条件为假时,程序运行会停止并抛出 AssertionError 异常 l1 = ['111a']...原创 2019-11-26 10:58:48 · 1769 阅读 · 0 评论 -
【Python】global语句强调全局变量
在一些特定场景中,我们会需要用全局变量,如下例子:先创建一个函数f(x):def f(x): global a print(a) a = 10 print(a+x) 然后,执行下面语句:a = 2f(22)print (a)结果为:23210但是,如果我们不声明全局变量,f(x)函数改为如下形式:def ...原创 2019-11-21 20:08:43 · 401 阅读 · 0 评论 -
【Python】Iterator,Iterable函数
在Python中,我们很多时候是看一个数据的类型,一般用type函数,那么如何看是否是迭代器或者迭代对象呢?这就要用到小白标题的函数了。 首先,加载这两个函数:from collections.abc import Iterator,Iterable接下来看如何判断是否是迭代器:isinstance(range(10),Iterator)#是否是迭代器...原创 2019-11-21 19:51:12 · 622 阅读 · 0 评论 -
【NLP】Python之词性标注界面化实现
小白之前文章中有介绍过jieba词性标注,这篇博文,总结一下小白实现的一个界面化词性标注的案例,可以在平时积累一些文章,快速的获取词性标注的结果文档。 在具体举例之前,需要先安利一个重要的工具--Tornado。Tornado既是一个web server,也是web framework。而它作为web server 采用的是asynchronous IO的网络模型,这...原创 2019-11-19 14:35:07 · 1140 阅读 · 0 评论 -
【NLP】Python之jieba词性标注实例
小白在之前文章中有讲过jieba在分词中的应用,这篇文章,介绍下jieba在词性标注中的使用。首先,导入jieba包import jieba.posseg as pseg来一个简单的例子sentence =pseg.cut("我爱北京天安门")for w in sentence: print (w.word,w.flag) 结果:我 r...原创 2019-11-04 19:55:13 · 2600 阅读 · 0 评论 -
【Python】List的extend和append详解
在数据分析时,小白经常用到extend和append函数,但是经常两种搞不清楚,每次都需要试一下,可能大家也有类似的疑问,总结一下,加深对两个函数的理解。 extend和append函数是List列表的两种对列表的扩展函数,先来看下,最基本的使用List添加List首先创建两个List:L1 = ['aaa','bbb','ccc']L2 = ['ddd','...原创 2019-08-17 16:21:39 · 2702 阅读 · 1 评论 -
【Python】Tuple遍历
小白之前博文已经写了Dtaframe、set等的遍历,这篇博文来总结下遍历Tuple,Tuple一旦创建后,元素不可变,遍历和List其实是一样的,下面来看下吧~ 首先,创建一个tuple:#create a tupletuple = ('111','222','333') 接下来,用几种方式来遍历Tuple:对于方法1、2、3、4都...原创 2019-08-17 15:38:38 · 2921 阅读 · 0 评论 -
【Python】set遍历
set是一组数,无序,内容不能重复,通过调用set()方法创建,那么如何对set集合进行遍历呢?1.简单的set:s1 = set(['111', '222', '333'])对于s1,是一组数,有几种方法可以遍历:function1:直接用in的方式遍历set集合。function2:用iter()迭代器来遍历集合看到前两种方法可能有人就有疑问了,为啥和上面写...原创 2019-08-16 20:51:29 · 12290 阅读 · 0 评论 -
【Python】List遍历
List也是Python数据分析时经常用到的一种存储类型,这篇博文小白主要分享List的遍历。首先,生成一个List:list = [111,222,333,444]下面,用几种方法来遍历该List:(1)小白首先使用我们最常循环时用到的range函数来遍历list,从结果可以看到将索引和值都输出,其中索引从0开始。(2)对于function2,可以看到小白贴出了...原创 2019-08-16 20:21:52 · 4427 阅读 · 0 评论 -
【Python】字典遍历(dict遍历)
字典也是我们在做数据分析时经常用到的类型,之前小白有总结过DataFrame的遍历,这篇博文,小白整理了自己遍历字典时的几种方法。 众所周知,字典是键值对的组合,那么对字典的遍历就自然而然的包含了对键和值的遍历,下面依次介绍遍历键、值,键值三种情况的遍历。首先,创建一个字典,以便下面的遍历。dict = { '小明':129, '小兰':148...原创 2019-08-16 20:06:12 · 158639 阅读 · 3 评论 -
【Python】DataFrame遍历
在数据分析的过程中,往往需要用到DataFrame的类型,因为这个类型就像EXCEL表格一样,便于我们个中连接、计算、统计等操作。在数据分析的过程中,避免不了的要对数据进行遍历,那么,DataFrame如何遍历呢?之前,小白每次使用时都是Google或百度,想想,还是总结一下~ 小白经常用到的有三种方式,如下:首先,先读入一个DataFrameimport pa...原创 2019-08-16 19:06:39 · 44751 阅读 · 1 评论 -
【Python】中文编码乱码问题
若Python载入时有中文字符,print时不输出中文,可以在添加以下代码:import sysreload(sys)sys.setdefaultencoding('utf-8')原创 2017-08-31 11:24:43 · 3385 阅读 · 0 评论 -
【Python】Windows系统下Spyder安装python第三方包的两种方法
小白在学习python之初,经常遇到要安装python第三方包的问题,犹记得在安装xgboost时,那是安装了一下午呀,各种网上找教程,后来小白总结了一下,其实安装包无非就两种方式,今日做一个总结,以后再忘记时,就可以看自己的笔记啦~方法一:利用Spyder自身进行安装步骤:1)打开spyder--tools--open coomand prmot--进入编辑界面;2...原创 2019-05-25 22:07:38 · 35285 阅读 · 4 评论 -
【NLP】Python之结巴分词
小白在Long Long ago研究过一段时间的结巴分词,当时是因为工作需要,很长时间过去了,有一点点生疏,现把之前学习的笔记整理一下,以便以后的使用,也分享一下~ 首先,需要先安装结巴分词包。使用Anaconda prompt进行安装pip install jiebaspyder安装第三方包可参考小白之前的博客哦(https://blog.csdn.net...原创 2019-06-15 14:28:36 · 1718 阅读 · 0 评论 -
【Python】内置函数exec的内置语句用法(exec高阶用法)
小白在之前文章中有分享过exec的使用方式,这篇文章中,小白总结一下exec的高阶用法。先看一个遍历:for i in range(10): print ("the result of i is: %d" % (i))很明显结果为:the result of i is: 0the result of i is: 1the result of i is: ...原创 2019-08-07 09:29:52 · 1356 阅读 · 0 评论 -
【Python】class中init函数、self参数详解
小白在刚开始用class来创建对象的时候,不理解为啥class中的方法都要先声明一个__init__方法,而且方法里都有self这个参数,后来,小白做了一个试验,发现这两个小的知识点有大的用处。 首先,init方法前面带有两个横杠,而不是一个,小白学习之初用一个横线遇到报错的情况。在Python中,遇到此种形式开头的函数,就是私有方法,不可以被外面的类调用。这个方法可以...原创 2019-08-08 19:22:49 · 3239 阅读 · 0 评论 -
【Python】for循环--内置函数range和enumerate的用法
在使用Python进行数据分析时,不可避免的要进行for loop,小白之前到这种时候一直都是用range(len())的组合进行遍历,后来发现,Python内置函数enumerate也非常方便,下面就总结一下两种方法的用法:1.Python range() 函数用法语法:range(start, stop[, step])参数说明:start:下标起始值,默认是从 0...原创 2019-08-06 08:45:49 · 2096 阅读 · 0 评论 -
【Python】内置函数eval的用法(及str转为dict的三种方式:eval/json/exec)
Pythoneval() 函数作用:eval() 函数用来执行一个字符串表达式,并返回表达式的值。注意:计算指定表达式的值。也就是说它要执行的python代码只能是单个表达式(注意eval不支持任何形式的赋值操作),而不能是复杂的代码逻辑。语法:eval(expression[, globals[, locals]])参数:expression -- 表达式。globals --...原创 2019-08-06 08:45:25 · 7649 阅读 · 2 评论 -
【Python】Anaconda安装Tensorflow
相信各位大神都有安装Tensorflow失败N次的经历,小白也是如此,之前写过一篇博文,用Anaconda Prompt安装Tensorflow,对,很成功,在Anaconda Prompt上完美使用Tensorflow,BUT,在Spyder上是无论如何都报错,说没有次moudle,小白实在不懂为何,后来又换了今天讲的这种方式进行安装,非常完美。所以,如果是已经安装了Anacon...原创 2019-07-13 16:13:22 · 367 阅读 · 0 评论