python
文章平均质量分 91
SunnyRivers
在通信、游戏、互联网、新能源等不同行业从事过多年大数据开发相关工作,想通过博客和大家一起分享大数据技术带来的经验和乐趣。
展开
-
Python sys模块详解
这是我项目的层级:print_b()我:这个与windows系统没关系,你放在任何系统你不告诉a.py模块在哪里找package2包,它都找不到。实习生:啥意思啊?你就直接告诉我怎么解决这个bug吧。我:用sys模块的path方法就能解决。实习生:好,我搜一下,试试实习生:没什么用,依然报上面的错。import sysprint_b()我:你犯了两个错误,第一你代码第一行就这几导入package2,这个时候解释器还没有把这个路径传入到系统路径中,依然无法识别;原创 2023-07-20 11:12:00 · 555 阅读 · 0 评论 -
探索Python虚拟环境:优化代码开发与管理的利器
Python虚拟环境是一个强大而灵活的工具,它可以帮助我们管理项目的依赖包、隔离不同项目的开发环境,并优化代码的开发过程。本文将介绍Python虚拟环境的概念、用法和好处,并引导您逐步使用它来提高代码开发的效率。Python虚拟环境是Python解释器的一个独立副本,它可以在同一台计算机上同时存在多个独立的Python开发环境。每个虚拟环境都有自己独立的Python解释器和安装的第三方包,这样可以实现项目之间的隔离。原创 2023-07-05 15:49:58 · 1044 阅读 · 0 评论 -
cx_Oracle和oracledb的爱恨情仇
实习生:我要用python访问oracle,我究竟该用哪个库啊,网上搜的有两个,一个是cx_Oracle另一个是oracledb,这两个有什么区别?我:话说那是2022年5月一个阴云密布的日子,甲骨文发布了python oracledb驱动程序。与早期的cx_Oracle驱动程序(创建于1999年)一样,该模块允许Python应用程序连接到Oracle数据库,执行SQL和PL/SQL语句,并执行SODA操作。这两个驱动程序都实现了Python数据库API规范2.0版,有很多扩展,只有一些必要的遗漏。原创 2023-05-18 10:23:27 · 1412 阅读 · 0 评论 -
Pandas如何检测None和Nan
前言使用pandas的时候经常需要检测空值,但每次感觉都判断不全或者感觉很困惑,因此这里做个简单的总结NoneNone是Python的特殊类型,NoneType对象,它只有一个值None.它不支持任何运算也没有任何内建方法。None和任何其他的数据类型比较永远返回False。None有自己的数据类型NoneType。你可以将None复制给任何变量,但是你不能创建其他NoneType对象。数据类型>>>type(None)<class 'NoneType'>Nan原创 2021-11-10 21:47:31 · 10607 阅读 · 0 评论 -
PyCharm中直接使用Anaconda已安装的库
前言实习生问:我咋看见你经常用Anaconda的jupyter notebook写python代码,为啥不用PyCharm呢?…对于我个人而言现在主要的工作是数据分析,挖掘,直接下载Anaconda安装后,就可以启动jupyter notebook,写代码也感觉比较方便但是之前用Django以及爬虫项目的时候,PyCharm优势就非常明显了较为详细的解释Jupyter notebook的特点:开源。支撑 30 种语言,包括一些数据科学领域很流行的语言,如 Python、R、scala、Ju原创 2020-05-27 15:49:23 · 1821 阅读 · 0 评论 -
第三章Python快速入门
前言本章重点介绍有关Python的基础知识,这是每一个Python用户所要走过的必经之路,因为任何一段Python代码中都会包含一些基础知识。对于读者来说,只有基础夯实牢了,在之后的代码编程中才会轻松自如。如果你是从零开始的Python用户,希望能够认真学完本章的Python入门基础知识,相信本章内容对你将有很大的帮助;如果你是Python的中级或高级用户,通过本章内容的阅读,也许多少会有一点查...转载 2019-07-08 16:54:34 · 1568 阅读 · 1 评论 -
修改Jupyter Notebook的默认路径
前言网上一搜一大堆的方法,什么两种、三种、四种,什么修改配置等等等等都不要再尝试了,很多都是浪费时间并且不一定管用仅此一种方式右键-属性(不要问我这个怎么操作)把起始位置中的%USERPROFILE%修改为自己的路径并且用该路径把目标栏后面的参数%USERPROFILE%替换掉!!!,且用引号引起来测试...原创 2019-05-31 10:41:47 · 1279 阅读 · 0 评论 -
CDH修改PySpark默认的Python版本
前言PySpark一直使用的是Linux默认的Python2.7.5版本,感觉超级不爽,于是想升个级,可怎么升啊?于是又开始了万年的Google操作步骤安装Python3.X参考配置全局变量sudo vim /etc/profileexport PATH=/usr/bin/python3:$PATHsource /etc/profile打开CDH Web配置spark-en...原创 2019-05-14 19:43:18 · 1987 阅读 · 0 评论 -
Linux源码安装Python3.7出现的各种坑
前言自己在Linux安装过很多次Python,每次都会由于各种各样的原因出现很多问题,很无奈安装流程去这里先看看有哪些可用版本可用下载下载sudo wget http://www.python.org/ftp/python/3.7.0/Python-3.7.0.tgz解压sudo tar -xzvf Python-3.7.0.tgz自定义安装目录sudo mkdi...原创 2019-05-14 17:23:32 · 3568 阅读 · 1 评论 -
编译型语言和解释型语言
前言旁边一小伙问:python为什么比c运行效率低?我说:python是解释型语言小伙问:啥是解释型语言?…概念编译型语言解释型语言度娘的解释已经相当全面了简单概括两个语言最终都必须转换为二进制代码(机器语言)编译型语言在运行前就有一个编译的过程,运行的时候不需要重新编译,所以效率高解释型语言在运行时才开始翻译为机器语言,每执行一次就得翻译一次,因此效率低后记上面来自度...原创 2019-04-17 15:02:10 · 202 阅读 · 0 评论 -
第四章Python数值计算工具 ——Numpy
前言尽管在第3章中介绍了有关存储数据的列表对象,但是其无法直接参与数值运算(虽然可以使用加法和乘法,但分别代表列表元素的增加和重复)。本章将介绍另一种非常有用的数据结构,那就是数组,通过数组可以实现各种常见的数学运算,而且基于数组的运算,也是非常高效的。 本章的重点是讲解有关Python数值运算的numpy模块,通过numpy模块的学习,你将掌握如下几方面的内容,进而为后面章节的统计运算和机器...转载 2019-07-09 10:40:05 · 1325 阅读 · 0 评论 -
第一章数据分析与挖掘概述
前言马云曾说“中国正迎来从IT时代到DT时代的变革”,DT就是大数据时代。随着移动互联网的发展,人们越来越感受到技术所带来的便捷,同时企业也将搜集到越来越多与用户相关的数据,包括用户的基本信息、交易记录、个人喜好、行为特征等。这些数据就相当于隐藏在地球深处的宝贵资源,企业都想从数据红利中分得一杯羹,进而推进企业重视并善加利用数据分析与挖掘相关的技术。本章将以概述的形式介绍数据分析和挖掘相关的内...转载 2019-07-04 22:34:01 · 3433 阅读 · 2 评论 -
第二章从收入的预测分析开始
前沿在数据分析与挖掘过程中,预测性或分类性问题往往是企业需要解决的主要问题,例如下一季度的营收可能会达到多少、什么样的用户可能会流失、一场营销活动中哪些用户的参与度会比较高等。本章将通过Python语言,以一个实战案例介绍分类性问题的解决步骤。通过本章的学习,你将会了解到基于Python的数据处理和建模方法:外部数据的读取;数据的预处理;数据的探索性分析;数据建模;模型预测与评估。...转载 2019-07-04 23:11:32 · 3857 阅读 · 3 评论 -
如何学习Python进行数据分析
前言之前一直做大数据方向的工作,用spark、flink、hive等等处理数据居多,语言方面一般使用scala、java很少用到python,但是不得不说如果想要从事算法方向的工作还是必须得把python用熟练了。下面整理一下学习的流程。Python基础这个很简单,但很重要,推荐看一下这本书的基础部分主要掌握知识点:常用的数据结构及对应方法三种控制流的使用字符串的常用处理方法正则...原创 2019-07-01 10:53:29 · 383 阅读 · 0 评论 -
第五章Python数据处理工具 ——Pandas
前言上一章向读者介绍了有关数值计算的numpy模块,通过numpy模块可以非常方便地调用各种常用的数学和统计函数。本章将介绍强大的数据处理模块Pandas,该模块可以帮助数据分析师轻松地解决数据的预处理问题,如数据类型的转换、缺失值的处理、描述性统计分析、数据的汇总等。通过本章内容的学习,读者将会掌握如下知识点,进而在数据处理过程中做到游刃有余,为后续的数据分析或机器学习做准备:两种重要的...转载 2019-07-18 09:44:14 · 2494 阅读 · 1 评论 -
第六章Python数据可视化
前言文不如字,字不如表,表不如图”,说的就是可视化的重要性。从事与数据相关的工作者经常会作一些总结或展望性的报告,如果报告中密密麻麻都是文字,相信听众或者老板一定会厌烦;如果报告中呈现的是大量的图形化结果,就会受到众人的喜爱,因为图形更加直观、醒目。本章内容的重点就是利用Python绘制常见的统计图形,例如条形图、饼图、直方图、折线图、散点图等,通过这些常用图形的展现,将复杂的数据简单化。这些...转载 2019-07-19 18:50:51 · 4889 阅读 · 13 评论 -
第七章线性回归预测模型
前言线性回归模型属于经典的统计学模型,该模型的应用场景是根据已知的变量(自变量)来预测某个连续的数值变量(因变量)。例如,餐厅根据每天的营业数据(包括菜谱价格、就餐人数、预定人数、特价菜折扣等)预测就餐规模或营业额;网站根据访问的历史数据(包括新用户的注册量、老用户的活跃度、网页内容的更新频率等)预测用户的支付转化率;医院根据患者的病历数据(如体检指标、药物服用情况、平时的饮食习惯等)预测某种疾......转载 2019-07-29 09:22:15 · 37275 阅读 · 16 评论 -
Python的安装
前言很早之前写过Python基于Windows系统的安装,写的比较简单,现在重新整理一下基于Windows和Linux系统安装Python。现在Python已经到3.7.4版本,但是一般不要轻易使用最新版本作为生产环境,不然可能会浪费太多的时间来解决bug,这里选择3.6.4Windows下安装Python这里以Windows 10操作系统为例,演示如何在Windows系统下安装Python...原创 2019-04-17 14:23:11 · 372 阅读 · 0 评论 -
Anaconda不同平台的安装方式
前面已经写过关于Anaconda的简介和基于Windows的安装,接下来将三个平台安装的的方式都做个简单总结简介Anoconda是不错的选择,专门用于科学计算的Python发行版,支持Windows、Linux和Mac系统,可以很方便地解决多版本Python并存、切换以及各种第三方模块安装的问题。更重要的是,当你下载并安装好Anoconda后,它就已经集成了上百个科学计算的第三方模块,例如书中...原创 2019-04-16 10:19:23 · 707 阅读 · 0 评论 -
Windows系统中搭建Python编译环境
Windows系统并非都默认安装了Python,因此你可能需要下载并安装它,再下载并安装一个文本编辑器(用之前的PyCham:点击打开链接)。1. 安装Python首先,检查你的系统是否安装了Python。为此,在“开始”菜单中输入 command 并按回车以打开一个命令窗口;你也可按住Shift键并右击桌面,再选择“在此处打开命令窗口”。在终端窗口中输入python并按回车;如果出现了Pytho...原创 2018-04-16 10:32:24 · 1045 阅读 · 0 评论 -
eclipse如何开发python
有一些eclipse的忠实粉丝,怎么都不情愿使用pycharm......那就继续使用eclipse吧(无语...)操作步骤:1.下载python需要的插件点击下载2.解压完后生成这样两个文件夹3.分别把两个文件夹里的文件拷贝到eclipse对应的目录中4.重启eclipse后,就可以开心的new project了可是....工程名都没办法输入5.这是因...原创 2018-04-16 21:25:22 · 911 阅读 · 0 评论 -
Anaconda
Anaconda是什么参考百度Anaconda指的是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项。因为包含了大量的科学包,Anaconda 的下载文件比较大(约 531 MB),如果只需要某些包,或者需要节省带宽或存储空间,也可以使用Miniconda这个较小的发行版(仅包含conda和 Python)。为什么使用Anaconda由于人们使用...原创 2018-12-16 12:34:48 · 1408 阅读 · 0 评论 -
Python的优势和劣势
优势(1)实现同样的功能,python代码更少(2)拥有大量Web框架,如Django、Tornado、Flask等等(3)大量的数据分析库作支撑,如numpy、pandas、matplotlib、IPython和Jupyter、SciPy、scikit-learn、statsmodels等等(4)它能够轻松地集成C、C++以及Fortran代码(5)Python社区有形形色色充满激情的...原创 2018-12-16 18:28:18 · 3592 阅读 · 0 评论 -
重要的Python数据分析库
NumPyNumPy(Numerical Python的简称)是Python科学计算的基础包。它提供了以下功能(不限于此):(1)快速有效的多维数组对象ndarray。(2)用于对数组执行元素级计算以及直接对数组执行数学运算的函数。(3)用于读写硬盘上基于数组的数据集的工具。(4)线性代数运算、傅里叶变换,以及随机数生成。(5)成熟的C API, 用于Python插件和原生C、C++、...原创 2018-12-16 20:37:18 · 574 阅读 · 0 评论 -
PyCharm中导入数据分析库
虽然安装完Anaconda后,就可以直接使用数据分析库进行代码编写以及数据分析,但是有时候我还是习惯用PyCharm开发(毕竟有很多年的Android Studio 和IDEA的使用经验),如何在PyCharm中导入常用的数据分析库呢?(1)打开PyCharm,选择左下角的Terminal,更新pippython -m pip install -U pip(2)安装各种库命令python...原创 2018-12-16 21:00:51 · 6189 阅读 · 3 评论 -
Python爬虫之(一):爬虫简介
什么是爬虫网络爬虫也叫网络蜘蛛,如果把互联网比喻成一个蜘蛛网,那么蜘蛛就是在网上爬来爬去的蜘蛛,爬虫程序通过请求url地址,根据响应的内容进行解析采集数据, 比如:如果响应内容是html,分析dom结构,进行dom解析、或者正则匹配,如果响应内容是xml/json数据,就可以转数据对象,然后对数据进行解析。作用通过有效的爬虫手段批量采集数据,可以降低人工成本,提高有效数据量,给予运营/销售的...原创 2018-12-29 20:03:56 · 301 阅读 · 0 评论 -
Python爬虫之(二)工具的使用
常用的工具pythonpycharm浏览器chrome火狐fiddlerfiddler的使用操作界面界面含义请求 (Request) 部分详解名称含义Headers显示客户端发送到服务器的 HTTP 请求的,header 显示为一个分级视图,包含了 Web 客户端信息、Cookie、传输状态等Textview显示 POST 请求...原创 2018-12-29 21:11:17 · 216 阅读 · 0 评论 -
Python爬虫之(三)urllib库
第一个爬虫程序怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS、CSS,如果把网页比作一个人,那么HTML便是他的骨架,JS便是他的肌肉,CSS便是它的衣服。所以最重要的部分是存在于HTML中的,下面我们就写个例子来扒一个网页下来from urllib.request imp...原创 2018-12-30 00:15:18 · 229 阅读 · 0 评论 -
Python爬虫之(四)urllib库的高级用法
伪装自己有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作设置请求头其中User-Agent代表用的哪个请求的浏览器from urllib.request import urlopenfrom urllib.request import Requesturl = 'http://www.server.com/login...原创 2018-12-30 16:17:20 · 281 阅读 · 0 评论 -
Python爬虫之(五)Cookie和URLError
Cookie为什么要使用Cookie呢?Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容是不允许的。那么我们可以利用Urllib库保存我们登录的Cookie,然后再抓取其他页面就达到目的了煮个栗子:from urllib.request import Re...原创 2019-01-11 21:18:10 · 365 阅读 · 1 评论 -
Python爬虫之(六)requests库的用法
介绍对了解一些爬虫的基本理念,掌握爬虫爬取的流程有所帮助。入门之后,我们就需要学习一些更加高级的内容和工具来方便我们的爬取。那么这一节来简单介绍一下 requests 库的基本用法安装pip install requests基本请求req = requests.get("http://www.baidu.com")req = requests.post("http://www.bai...原创 2019-01-11 21:51:44 · 359 阅读 · 0 评论 -
Python爬虫之(七)数据提取-正则表达式
提取数据在前面我们已经搞定了怎样获取页面的内容,不过还差一步,这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢?下面就开始介绍一个十分强大的工具,正则表达式!正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是用来匹配字符串非常强大的工具,在其他编程语言中同样...原创 2019-01-13 10:41:53 · 1938 阅读 · 0 评论 -
Python爬虫之(八)数据提取-Beautiful Soup
Beautiful Soup的简介Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,...原创 2019-01-13 11:35:32 · 1877 阅读 · 0 评论 -
Python爬虫之(九)数据提取-XPath
介绍之前 BeautifulSoup 的用法,这个已经是非常强大的库了,不过还有一些比较流行的解析库,例如 lxml,使用的是 Xpath 语法,同样是效率比较高的解析方法。如果大家对 BeautifulSoup 使用不太习惯的话,可以尝试下 Xpathw3c http://www.w3school.com.cn/xpath/index.asp安装pip install lxmlXPa...原创 2019-01-13 15:47:02 · 2678 阅读 · 1 评论 -
如何在Windows环境下使用PyCharm开发PySpark
1.安装Python环境Windows搭建python环境请参考2.安装Spark环境官网下载spark并解压3.配置Windows环境HADOOP_HOME:D:\bigdata\hadoop-2.8.4SPARK_HOME:D:\bigdata\spark-2.3.1-bin-hadoop2.7PATH:%SPARK_HOME%\bin;%HADOOP_HOME%\bin;4...原创 2019-04-03 11:20:22 · 678 阅读 · 0 评论