人生苦短

记录生活!天道殷勤!
私信 关注
火星上的男人
码龄3年

记录生活,记录成长,天道酬勤。

  • 97,085
    被访问量
  • 167
    原创文章
  • 25,348
    作者排名
  • 103
    粉丝数量
  • 于 2018-07-10 加入CSDN
获得成就
  • 获得77次点赞
  • 内容获得63次评论
  • 获得200次收藏
荣誉勋章
兴趣领域
  • #大数据
    #hadoop#hive#spark#数据仓库#ETL
TA的专栏
  • NLP
    3篇
  • 大数据组件
    26篇
  • 机器学习与数据挖掘
    36篇
  • Linux随笔
    21篇
  • Python随笔
    68篇
  • 随笔
    12篇
  • Java随笔
    3篇
  • 最近
  • 文章
  • 资源
  • 问答
  • 课程
  • 帖子
  • 收藏
  • 关注/订阅

求解答:

#RFM分析(假设现在是2017/11/25)
from datetime import datetime 

#最近一次购买距离现在的天数
data['date']=pd.to_datetime(data['date'])
recent_buy=data[data.behavior=='购买'].groupby('user_id')['date'].apply(lambda x: datetime(2017,12,25)-x.sort_values().iloc[-1]).reset_index().rename(columns={'date':'recent'})
recent_buy.recent=recent_buy.recent.map(lambda x: x.days)

#购买频率(购买次数)
fred_buy=data[data.behavior=='购买'].groupby('user_id').date.count().reset_index().rename(columns={'date':'fred'})
#rfm

recent_fred=pd.merge(recent_buy,fred_buy,on='user_id')
#为实现自动细分,将使用R和F变量的80%分位数
quantiles=recent_fred.quantile(q=[0.8])

recent_fred['R']=np.where(recent_fred['recent']<=int(quantiles.recent.values),2,1)
recent_fred['F']=np.where(recent_fred['fred']<=int(quantiles.fred.values),1,2)
recent_fred['rfm']=recent_fred.R.map(str)+recent_fred.F.map(str)

#打标签,时间越近次数越多越重要
labels = {'12':'流失客户','22': '明星客户','11':'次要客户','21':'新客户'}
recent_fred['labels']= recent_fred['rfm'].apply(lambda x: labels[x])
rfm=pd.DataFrame(recent_fred['labels'].value_counts())

plt.figure(figsize=(10,7))
plt.pie(rfm.values,labels=rfm.index,explode=(0.05,0,0,0),colors=['red','yellowgreen','gold','orange'],autopct='%1.1f%%',textprops={'fontsize':15})
plt.legend()
plt.axis('equal')
plt.title('客户类群占比',fontsize=18)

回答的问题 #Python中matplotlib.pyplot.hist显示x must be 1D or 2D
回答了问题于 1 小时前

一步一步扫清transformers的坑。(1)

1.jupyter notebook下关于transformers报错:无法导入管道pipelinehttps://blog.csdn.net/qq_42658739/article/details/114239961?spm=1001.2014.3001.5502解析:不要用新版本的transformers,一般用3.4.0或者3.0.2,因为结合网上评论和我的试用,这两个没出现啥问题。2.加载模型出错:切记,下载预训练模型之后,首先要改好文件名。不然也会error。3.模型加载通用套路:
原创
5阅读
0评论
0点赞
发布博客于 3 天前

记录一下,tensorflow2.0和torch的函数移植对比

转载
13阅读
0评论
0点赞
发布博客于 5 天前

NFO - transformers.tokenization_utils_base -   Model name './vocab/vocab.txt' not found in model shortcut name list (bert-base-uncased, bert-la....

 

 

我也报错了

回答的问题 #无法使用transformers快速加载模型
回答了问题于 7 天前

中文分词词典UserDict.txt

在使用jiba分词的情况下,使用这个词典有助于提高你的分词准确度,因为这个分词词典包含了众多领域词汇,这些词汇出自某dog的几十个细胞词库。已使用转换器转换成txt,欢迎下载。
txt
发布资源于 8 天前

最新中文停用词.txt

我下载了多个停用词表,将其合并后去重,得出这个最新的停用词表。欢迎下载使用。
txt
发布资源于 8 天前

中文分词数据集.zip

分词数据集,用于训练一个用来分词的模型。详细看压缩包里的内容。
zip
发布资源于 8 天前

jupyter notebook下关于transformers报错:无法导入管道pipeline

关于transformers的报错如下:---------------------------------------------------------------------------ImportError Traceback (most recent call last)<ipython-input-2-71d1402da22e> in <module>----> 1 from transformers
原创
43阅读
2评论
1点赞
发布博客于 8 天前

报错未解决:python3.6.12+ pytorch1.4.0 tookit/cuda10.0

Collecting package metadata (current_repodata.json): doneSolving environment: failed with initial frozen solve. Retrying with flexible solve.Solving environment: failed with repodata from current_repodata.json, will retry with next repodata source.Colle
原创
116阅读
6评论
0点赞
发布博客于 2 月前

把jupyter导出来的html文件转成ipynb文件

from bs4 import BeautifulSoupimport jsonimport urllib.request# for local html fileresponse = open("TM讲义.html",encoding='utf8')text = response.read()soup = BeautifulSoup(text, 'lxml')# see some of the htmlprint(soup.div)dictionary = {'nbformat':
翻译
148阅读
0评论
0点赞
发布博客于 2 月前

Province.xlsx

从零开始学Python--数据分析与挖掘
xlsx
发布资源于 2 月前

GPU环境问题。

由于用了新版本之后,CUDA10.0和CUDA10.1同时安装之后,现在,突然就CUDA10.0用不了,不,应该说是其对应的tf-GPU用不了了。…系统:win10tf版本:2.0.0tf.config.experimental.list_physical_devices(‘GPU’)返回如下:[PhysicalDevice(name='/physical_device:GPU:0', device_type='GPU')]但是,print(tf.__version__)print(tf.t
原创
64阅读
5评论
0点赞
发布博客于 2 月前

详细理解Tensor中的张量

最通俗的语言解释什么是张量,最近有混乱和不理解的可以详细看一下,耐心看就行。emmmm一、一维张量从一维开始:tf.constant([1.0 , 3.0 , 6.0])表示:生成一个一维张量(向量),shape是1行3列即shape是[3]。为什么不是[1,3]呢?因为这个张量是一维的,只有一个维度,你可以把维度和shape理解为一个key:value的关系,就是一个维度是拥有值的,这个值在张量中体现为[] 的层数。shape为[1,3]的应该是:tf.constant([[1.0 , 5.0
原创
82阅读
0评论
0点赞
发布博客于 3 月前

Centos7和Centos8版本异同

众所周知,centos和Ubuntu各有特点,centos利于做服务器,Ubuntu利于做桌面开发等一系列和桌面相关的事情(我们真的需要桌面吗???)centos更新了8版本,为了了解Centos7和8版本的区别和联系,有必要去查资料了解:官网解释知乎上的讨论知乎上的讨论2总之,我就关注了几个点:在8版本时,NTP没有了。在8版本时,记得当时我没找到网络配置文件,emmm...
原创
908阅读
0评论
0点赞
发布博客于 3 月前

Python编程的一些优化点

Python优化技术:http://wiki.python.org/moin/PythonSpeed/PerformanceTipsScipy讲义- 高级Numpy:http://scipy-lectures.github.io/advanced/advanced_numpy/index.html#advanced-numpyIPython中的时序和性能分析:http://pynash.org/2013/03/06/timing-and-profiling/拿来当课外书看看也挺有趣的喔,就像你看动漫一
原创
34阅读
0评论
0点赞
发布博客于 3 月前

OCR识别库安装。【流程+报错解决】

在某些场景下,需要OCR来识别一些图片中的文字或者数字。比如现在我的情况:数据没有标注即没有label;公司配的这个电脑…连tensorflow都装不了,装了之后各种报bug(不知道是不是电脑老的问题)。业务时间要求较紧急。others season.所以我选择使用OCR + 图片特征处理的方式来进行。这篇文章记录了安装OCR+正常运行过程遇到的问题以及解决:一、下载安装tesseract软件:前往 https://digi.bib.uni-mannheim.de/tesseract/
原创
124阅读
0评论
1点赞
发布博客于 3 月前

tensorflow里面如何达到让两个shape不一样的张量相加的?

某书中的一个例子:对于某个线性层:Y = W@???? + ????
原创
179阅读
0评论
0点赞
发布博客于 3 月前

有道云笔记web端和PC端频繁崩溃的解决方法

找到下面这个文件夹,将其里面的内容删除:%userprofile%\AppData\Local\Youdao\Ynote\有用过语雀的人吗?好用吗?想换语雀了
原创
153阅读
0评论
0点赞
发布博客于 3 月前

我解决了:https://blog.csdn.net/qq_42658739/article/details/109616923 解决方法!含泪

回答的问题 #DLL load failed: 动态链接库(DLL)初始化例程失败的问题?
回答了问题于 3 月前

导入tensorflow报错!惨痛教训! ImportError: DLL load failed: 动态链接库(DLL)初始化例程失败。终于解决!

一、问题来源环境:win10Anaconda 2020.07.20虚拟环境 tf2nlp + python3.7问题来源:由于用了公司的笔记本,所以需要给那个笔记本装环境,装了Anaconda,创建了虚拟环境tf2nlp,进入虚拟环境,安装:pip install tensorflow==2.0,启动python,导入tensorflow时,出现了以下报错。然后我根据报错提示,去微软官网下载VC_redist.x64.exe 进行安装,然而报错还是一样。网上的相关文章都是说要降低tf的版本,然而
原创
1168阅读
5评论
4点赞
发布博客于 3 月前

好像就算是CPU版本也要安装CUDA和CUDNN的emmm???

回答的问题 #导入tf2报错:ImportError: DLL load failed:
回答了问题于 3 月前

分享一个python实用脚本:批量移动文件

场景:以脚本中我的情况来举例,该脚本适合移动excel文件里面记录的文件路径到指定路径,比如移动PDF。import loggingimport logging.handlersimport pandas as pdimport osimport shutilimport csvfrom tqdm import tqdmimport timedef printf_Start(): with open("logo.txt", mode='r', encoding='utf8')
原创
84阅读
0评论
0点赞
发布博客于 4 月前

如何让多个TensorFlow-GPU版本共存!【图文解释】

环境:Windows10下【linux下也适用】、anaconda【请耐心看完 ! 确实有用,网上很多博文很多说法,挑了几个尝试了没用。然后自己探索了一下感觉可能是这样,然后试了一下就是了。当然,之前试过很多种,都没找到正确的方法】一、要实现的目标描述:目标描述解释:我的电脑上安装有anaconda,anaconda上有多个虚拟环境,其中有两个关于TensorFlow-GPU的环境:tensorflow2GPU和tf23GPU,这两个环境,第一个是关于TensorFlow2.0.0GPU版本的,第
原创
166阅读
0评论
0点赞
发布博客于 6 月前

TF图像处理接口

https://tensorflow.google.cn/versions/r2.0/api_docs/python/tf/imageadjust_brightness(...):调整RGB或灰度图像的亮度。adjust_contrast(...):调整RGB或灰度图像的对比度。adjust_gamma(...):对输入图像执行Gamma校正。adjust_hue(...):调整RGB图像的色调。adjust_jpeg_quality(...):调整RGB图像的jpeg编码质量。adj
原创
150阅读
0评论
0点赞
发布博客于 6 月前

Maven问题与解决记录

一、生成文档过程中报错: Unable to determine if resource junit:junit:jar:3.8.1:test exists in http://maven.aliyun.com/nexus/content/groups/public版本:3.6.3首先,已经生成过一次文档了,但是之前报错:-----------------------------------------------------------------------[ERROR] Failed to e
原创
70阅读
0评论
0点赞
发布博客于 6 月前

docker问题:容器无法访问宿主机的PORTS

docker容器无法访问宿主机的ports,解决方法:操作如下:firewall-cmd --permanent --zone=trusted --change-interface=docker0firewall-cmd --reload
原创
407阅读
0评论
0点赞
发布博客于 6 月前

kafka常见问题以及解决方法

一、kafka无法关闭环境:centos7、scala2.11、kafka2.11-2.4.1、java1.8.0情况:kafka伪分布式下,先关闭了zookeeper之后,zookeeper是正常关闭的,kafka却无法关闭。分析:顺序问题一定要先启动ZooKeeper 再启动Kafka 顺序不可以改变。先关闭kafka ,再关闭zookeeper。...
原创
172阅读
0评论
0点赞
发布博客于 7 月前

pyspark的常见报错、问题以及解决方法【持续更新】。

报错原因代码段:from pyspark.ml import Pipelinefrom pyspark.ml.classification import LogisticRegressionfrom pyspark.ml.feature import HashingTF, Tokenizer# (id, text, label) training = spark.createDataFrame([ (0, "a b c d e spark", 1.0), (1, "b d", 0
原创
1550阅读
4评论
0点赞
发布博客于 7 月前

Tf2.0切换GPU与CPU

os.environ["CUDA_VISIBLE_DEVICES"] = "-1"
原创
214阅读
0评论
0点赞
发布博客于 7 月前

pandas 中loc和iloc的区别、用法

loc和iloc的意思:loc是location的意思,和iloc中i的意思是指integer,所以它只接受整数作为参数。具体可见:loc:iloc:loc为Selection by Label函数,即为按标签取数据,例如第一个参数选择index,第二个参数选择column。(当然,如果第二个参数【这个参数是列标签的范围】的个数是全部即 : ,那么可以省略不写,不过还是建议写上去比较严格)。:表示所有,[行索引范围,列字段名称范围]里边为先行后列。iloc函数为Selection by
原创
1077阅读
0评论
2点赞
发布博客于 7 月前

一劳永逸解决jupyter转pdf时中文无法转换问题。

1.找到环境中的 Lib\site-packages
bconvert\templates\latex路径。2. base.tplx输入代码解决中文问题:base.tplx文件在((* block packages *))后面插入: \usepackage{fontspec, xunicode, xltxtra} \setmainfont{Microsoft YaHei} \usepackage{ctex}添加之后,正常输出中文的PDF:下图是我之前刷力扣的草稿,加了
原创
382阅读
2评论
1点赞
发布博客于 7 月前

面对大数据量时,python提高效率的方法。

进行大型文件的读取时如果非要遍历数据(一般是非结构化的时候才会去遍历,不然直接dataframe了),用下面这种:(如果rb改为r,慢n倍。)with open(filename,"rb") as f: for fLine in f: pass尽量选择集合、字典数据类型,千万不要选择列表(一般遍历的时候都不选),列表的查询速度会超级慢,同样的,在已经使用集合或字典的情况下,千万不要再转化成列表进行操作。(1).对字典的优化操作:if value in dict....
原创
106阅读
0评论
0点赞
发布博客于 7 月前

追番【高达】----爬取b站高达影视列表以及观看顺序

学习之余的时间除了出去走走、帮父母干干家务事,还喜欢上了追番,最近觉得高达这部剧不错,但是关于高达的实在是太多番剧了,不知从何看起,之前看了seed 和seed Destiny就觉得不错,可是看完这两个之后又不知道该看哪部emmm至于高达与敢达,这两者应该只是口音以及翻译导致的不同,本质上应该都是一样的吧,这个我也不太清楚。通过网上百度,大致可以分为两种,一种是2000年之前的高达剧,另一种是2000年之后的高达剧。此外,根据网络收集,网上对高达的观看顺序的说法有很多种。我也是很难入手啊,emmmm
原创
389阅读
0评论
0点赞
发布博客于 7 月前

我个乖乖喔,数据结构算法刷的我头都快秃了。一天10题,坚持

 
发布Blink于 7 月前

Python ML常用库安装-详细滴

更新pip:pip install --upgrade pippython -m pip install --upgrade pip安装keraspip install keras安装sklearn:pip install -U scikit-learn安装tensorflow:官网:tensorflow官网1.CPU版本:pip install tensorflow-cpupip install tensorflow (这样也是默认安装cpu版本)pip install te
原创
592阅读
0评论
1点赞
发布博客于 8 月前

class、object、case class、case object区别!

首先,了解:class 类似Java中的class;object Scala不能定义静态成员,用定义单例对象代之;case class被称为样例类,是一种特殊的类,常被用于模式匹配。一、class 和 object 关系:单例对象不能带参数,类可以;对象可以和类名一样时,object被称为伴生对象,class被称为伴生类;类和伴生对象可以相互访问其私有属性,但是它们必须在一个源文件当中;类只会被编译,不会被执行。要执行,必须在Object中。二、case class 与 class
原创
105阅读
0评论
0点赞
发布博客于 7 月前

安装好pyecharts1.x版本或者0.5.11版本 以及相关包后在关于JupyterNotebook和本地html调用图像无法显示的问题解决方法!

首先,原因分析:不是绘图语法错误之类的,因为没有报错,语法也正常。会不会是某个程序冲突导致的呢?这也不对啊,我在虚拟环境中试过了。既然和网页有关,会不会是js或者css的问题???不太确定,但有嫌疑。于是,我也不想瞎猜了,有事去官网就对了。这不,官网的说法:就是下面这个默认值是罪魁祸首。解决方法: 官方解决获取 pyecharts-assets 项目 $ git clon...
原创
952阅读
2评论
1点赞
发布博客于 10 月前

谈谈为什么选择pyecharts新版本1.x而不选择旧版本0.5.x?

版本对比:0.5.x :0.5.x 版本已经不再进行维护。0.5.x版本支持的python版本以及依赖包版本比较旧。0.5.x版本的可视化图表太少、无法满足可视化工作的需求。0.5.x版本相对稳定,因为没有人对其进行维护,也就不会引入新的bug。0.5.x版本支持的平台少。(比如不支持Tornado)0.5.x仅仅支持函数调用,非常容易上手。1.x版本:1.x版本还在继续维...
原创
1043阅读
0评论
2点赞
发布博客于 1 年前

关于C++构造函数重载以及默认参数引起的二义性的问题分析与解决 (即重载时的构造函数模糊问题)

临时有事,改天来补。
原创
96阅读
0评论
1点赞
发布博客于 1 年前

codeblocks编译C++程序后运行弹窗报错:不支持的16位应用程序 已解决!

把电脑上面的安全管家卸载,然后下载360安全卫士,去系统修复那里直接修复即可。 然后要卸载原来的codeblocks,用360清理一下残留的垃圾,然后重启,然后重新安装,之后不能使用之前编译过的项目,要重新新建项目使用,就算原项目重新编译也不行。原因分析是: 注册表被篡改,不知道是什么程序篡改的,目测是电脑管家等电脑软件篡改的,因为我把电脑管家卸载之后下载360就正常了(也有可能是电脑管家没有...
原创
865阅读
0评论
2点赞
发布博客于 1 年前

国内源集合

conda源:【北方人建议使用清华源,剩下的建议使用上海交通大学源】官网:上海交大的: https://mirrors.sjtug.sjtu.edu.cn/#/pip源:【建议使用豆瓣或者阿里的,超级超级快】...
原创
372阅读
0评论
0点赞
发布博客于 11 月前

conda常见报错以及解决方法【持续更新conda的其它报错以及解决方法。】

今晚使用conda创建虚拟环境失败。报错如下:Collecting package metadata (current_repodata.json): failedCondaHTTPError: HTTP 000 CONNECTION FAILED for url <https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-f...
原创
12926阅读
6评论
15点赞
发布博客于 1 年前

解决CodeBlocks组件缺失与丢失(SpellChecker: Thesaurus files 'C:\CodeBlocks\share\codeblocks\SpellChecker\....)

具体情况:SpellChecker: Thesaurus files 'C:\CodeBlocks\share\codeblocks\SpellChecker\th_en_US.idx not found解决方法:下载缺失的东西放到对应目录,然后重启:下载: 链接:CodeBlocks缺失字典下载提取码:tvx0复制这段内容后打开百度网盘手机App,操作更方便哦下载完之后将两个文...
原创
1919阅读
0评论
1点赞
发布博客于 1 年前

python读取mongodb数据,并转成pandas的dataframe

import asynciofrom motor.motor_asyncio import AsyncIOMotorClientimport pandas as pdimport nest_asyncionest_asyncio.apply()def client_database(address,port,database): client = AsyncIOMotorCli...
原创
387阅读
6评论
1点赞
发布博客于 7 月前

关于时间数据类型的可视化(pyecharts0.5.x)以及pyecharts基本使用--超级详细

要使用pyecharts0.5.x之前,再次强调pyecharts0.5.x和pyecharts1.x的使用区别。pyecharts0.5.x 中 以图例为主体,需要什么就add什么就好了,一般在add里面直接写需要的功能的参数就ok了。pyecharts1.x中以options对象为主体,万物皆oop,可以通过不断的在对象上调用方法就????了。具体详见另一篇文章: pyecharts版本区别、...
原创
388阅读
0评论
0点赞
发布博客于 1 年前

ambari报错解决

报错1:Using python /usr/bin/pythonStarting ambari-serverAmbari Server running with administrator privileges.ERROR: Exiting with exit code -1. REASON: Before starting Ambari Server, you must copy t...
原创
1020阅读
0评论
0点赞
发布博客于 1 年前

执行Ambari-DDL-MySQL-CREATE.sql脚本出现报错的解决方法。

首先,数据库是正常的。执行Ambari-DDL-MySQL-CREATE.sql该脚本出现错误,可能是数据库ambari不存在所导致、或者用户ambari不存在所导致,或者编码导致,或者其它错误,这是我的推断。之后我一个一个去排除,都不是这些问题,然后我把脚本里面的sql代码考出来运行就成功了。原因是:源码里面没写好选择数据库的代码。。。。。确实,经过验证,如果把源码直接复制出来贴上去的话...
原创
582阅读
0评论
0点赞
发布博客于 1 年前

不使用tgz压缩包安装mysql

查看系统中是否安装有mysql服务:rpm -qa | grep mysql或者yum list installed | grep mysql如果已经安装,那么卸载方式是:yum -y remove mysql-libs.x86_64下载yum源:wget https://dev.mysql.com/get/mysql57-community-release-el7-11.noar...
原创
72阅读
0评论
0点赞
发布博客于 1 年前

centos7下安装nginx

(这里不使用docker安装nginx,是直接yum装到宿主机)使用官方源安装nginx:添加nginx官方yum源: Nginx 不在默认的 yum 源中,使用官网的 yum 源rpm -ivh http://nginx.org/packages/centos/7/noarch/RPMS/nginx-release-centos-7-0.el7.ngx.noarch.rpm安装ngi...
原创
111阅读
0评论
0点赞
发布博客于 1 年前

给yum安装可视化管理界面

适用图形界面用户:yum install yumex
原创
108阅读
0评论
0点赞
发布博客于 1 年前

一文搞明白VMware提供的三种网络连接模式以及配置静态IP

今天要装一个manjaro玩玩,于是乎就纠结了这个问题:勾选那个“复制物理网络连接状态”会干嘛?于是就去弄明白了,从头到尾记录一下。首先我纠结的问题的答案下面。虚拟机NetworkAdapter三种方式的区别Vmware在安装时默认安装了两块虚拟网卡,VMnet1和VMnet8,另外还有VMnet0。这些虚拟网卡的配置都是由Vmware虚拟机自动生成的,不需要用户自行设置;当然,用户可以为...
原创
587阅读
0评论
0点赞
发布博客于 1 年前

python字符串格式化

字符串格式化:字符串.format(值1,值2,…)str.format(格式化字符串1 ,值1,值2…).format(值,格式化字符串)如何去除字符串中的空格:s = " 13 6 "print(len(s))s1 = s.lstrip(' ') #去除前面的空格print(len(s1))s1 = s.strip(' ') #去除前后空格print(len...
原创
75阅读
0评论
0点赞
发布博客于 1 年前

关于python进行文件读写的一些参数意义

打开或者创建文件对象:f = open(file=,mode=‘r’,buffering=-1,encoding=None)file:要打开或者创建的文件名mode: 文件对象拥有的模式,默认为’rt’文本读取模式;mode 还有’r’读取, 'w’写入, 'x’创建新文件 , 'a’追加, 'b’二进制文件, ‘t’文本文件,’+'更新读写。buffering: 是否使...
原创
124阅读
0评论
0点赞
发布博客于 1 年前

非局部语句nonlocal 与 全局变量声明global

global 是将一个全局变量声明的关键字。global 示例:pi = 3.141592653589793e = 2.718281828459045def my_f(): global pi pi = 6 print("global pi :",pi) e = 2.718 print("局部变量 e :",e)print(pi)prin...
原创
172阅读
0评论
0点赞
发布博客于 1 年前

exec、eval函数使用

exec函数可以执行动态表达式,不返回值,仅仅执行。exec(str, globals=None, locals=None)例子:exec("for i in range(10): print(i, end=' ')")结果:**eval函数**对动态表达式进行求值,返回值eval(expression, globals=None, locals=None)expres...
原创
63阅读
0评论
0点赞
发布博客于 1 年前

compile函数使用

compile方法 编译代码为代码对象,可以提高效率:compile(source, filename, mode)source为代码语句的字符串;如果是多行语句,则每一行的结尾必须有换行符
filename为包含代码的文件mode为编码方式,可以为’exec’(用于语句序列的执行),可以为’eval’(用于表达式求值),可以为’single’(用于单个交互语句)例子:...
原创
680阅读
0评论
0点赞
发布博客于 1 年前

python类中的公有方法与私有方法

公有方法:何地调用都可以。无任何修饰。私有方法:只能在类内部调用。使用双下划线__对类方法进行修饰。魔法方法:在类名的前面和后面都使用双下划线进行修饰。class Book: def __init__(self,name,author,price): self.name = name self.author = author self....
原创
456阅读
0评论
1点赞
发布博客于 1 年前

python类的继承

子类继承父类,之类必须调用父类的构造函数。下面是一个例子: 仔细品尝即可发现其中奥妙。class Person: def __init__(self,name,age): self.name = name self.age = age def say_hi(self): print("您好,我叫{0},{1}岁".format(...
原创
31阅读
0评论
0点赞
发布博客于 1 年前

python类方法与静态方法

python类里面的实例方法我是很常用的,这个类方法和静态方法不怎么常用。所以有必要记录一下:静态方法,使用@staticmethod修饰;类方法,使用@classmethod修饰。实例方法定义:第一个参数必须是实例对象,参数名约定为“self”(当然,这个是可以改变的,但还是要self好点),通过它来传递实例的属性和方法(也可以传类的属性和方法);调用:在类外部,原则上由实例对象调用。...
原创
37阅读
0评论
0点赞
发布博客于 1 年前

list基本操作记录

list基本操作:"""list对象的方法 if s is a list: s.append(x) s.clear() 相当于s = [] s1 = s.copy() 相当于 s1 = s s.extend(t) 将序列t添加到s的尾部,直接作用于对象s,不创建新的对象。 s.insert(i,x) 在下标i插入x s.pop(i) 默认...
原创
61阅读
0评论
0点赞
发布博客于 1 年前

zip函数使用

zip 方法在 Python 2 和 Python 3 中的不同: 在 Python 3.x 中为了减少内存,zip() 返回的是一个对象。如需展示列表,需手动 list() 转换。该方法其实就是将两个可迭代对象作为参数,并将其一一对应的元素封装成元组。如果两个可迭代对象的长度不一样,那么返回的对象的长度为长度小的那个参数序列。利用 * 号操作符,可以将元组解压为对象(python3里面是zip...
原创
88阅读
0评论
0点赞
发布博客于 1 年前

查看python的所有关键字

keyword模块记录了当前python版本的所有关键字。使用keyword可以方便的查看。import keyword #导入关键字模块print(keyword.kwlist) #查询所有关键字print(len(keyword.kwlist)) #查询所有关键字一共多少个python3.7.4所有的关键字:‘False’, ‘None’, ‘True’, ‘and’, ‘as’,...
原创
170阅读
0评论
0点赞
发布博客于 1 年前

enumerate函数使用

其实吧,说起来,好像这个函数感觉也没什么用。enumerate函数将一个可遍历的对象组合为一个索引序列,同时列出对象的元素和元素下标;该函数有两个参数,第一个参数是序列,第二个参数是起始下标。season = ['Sp','Su','Au','Win']for i,s in enumerate(season,start=0): print('下标:',i,' 结果:',s)...
原创
77阅读
0评论
0点赞
发布博客于 1 年前

如何在pycharm中导入annconda创建python新环境、以及导入虚拟环境?

使用anaconda有一个不方便的地方就是基础环境的包太多了!用不过来啊,导致很臃肿,比如进行打包exe程序等的时候会有点麻烦,使用pycharm的时候导入包也很久。基于anaconda!如何在pycharm中使用不同的环境:在配置pycharm的的python解释器时,找到anaconda的环境存在的文件夹envs,选择里面的某个环境下的python解释器即可。目录一般位于**Anacon...
原创
1011阅读
0评论
0点赞
发布博客于 1 年前

Anaconda包与环境的管理

一、管理包1.安装包:conda install package_name例如:conda install tensorflow-gpu==2.0.02.删除包:conda remove package_name例如:conda remove tensorflow3.查找包:(支持模糊查找)conda search search_term例如:conda search ...
原创
235阅读
0评论
0点赞
发布博客于 1 年前

pyspark-Py4JError报错解决Py4JError: An error occurred while calling o35.isBarrier.

遇到如下报错:Py4JError: An error occurred while calling o35.isBarrier. Trace:py4j.Py4JException: Method isBarrier([]) does not exist at py4j.reflection.ReflectionEngine.getMethod(ReflectionEngine.java:31...
原创
1734阅读
0评论
0点赞
发布博客于 1 年前

spark ML第二篇_ML流程

使用一个小型的合成数据集来帮助使用ML。数据集解释:数据集包括了有两个值(bad、good)的分类标签,以及【其实应该说是哑变量】分类变量(颜色)、两个数值变量。虽然数据是合成的,但让我们假设这个数据集代表了公司的客户健康状况。“颜色”列表示客户服务代表做出的某种分类健康评级。“lab”列表示真实的客户健康状况。其他两个值是应用程序内活动的一些数值度量(例如,在站点上花费的分钟和购买)。假设...
原创
495阅读
0评论
0点赞
发布博客于 1 年前

spark ML第一篇_hello Vectors

从官网可以知道的是 MLib是针对RDD数据集的,而ML是针对Dataframe格式的。 ML是对MLib的高级封装,目前来说,MLib已经不再进行功能更新了,好像都不更新了!具体去官网了解。由于官网推荐的是学习和使用 spark dataframe,而且,现实生活中很多数据格式、python库、其它编程语言类库都是偏向于将数据解析成二维表的形式的,所以,我打算学习ML库。虽然MLib比较稳定、...
原创
176阅读
0评论
0点赞
发布博客于 1 年前

python手动实现WorldCount

str_test = 'the quick brown for jumps over the lazy dog.'str_test = str_test.replace('.,!?、',"")slist = str_test.split(" ")def WordCounter(slist): rstd = dict() for i in slist: if i...
原创
84阅读
0评论
0点赞
发布博客于 1 年前

pycharm如何在新建文件的时候添加头注释?

pycharm在新建文件的时候,在setting的File and Code Templates 的Python Script 添加头注释:当然也可以是其他的Script,根据需要自行尝试。# -*- coding: utf-8 -*-# @Time : ${DATE} ${TIME}# @Author : ChenRuhai# @Email : ruhai.chen@qq....
原创
304阅读
2评论
1点赞
发布博客于 1 年前

配置jupyter服务器的密码--详细

配置jupyter服务器的密码,有什么用呢?1.安全性2.方便记住密码(因为是自己设置的嘛)首先,使用pip或者conda安装好jupyter并按照惯例配置好环境变量之后,生成jupyter配置文件目录和文件:在shell下面执行下述命令,在windows10的user/xxx/.jupyter下面会生成一个配置文件:jupyter_notebook_config.pyjupyter n...
原创
379阅读
0评论
0点赞
发布博客于 1 年前

学生学习时长统计--python程序设计

python程序设计课程的最后一次作业:统计学生学习时长;这是python程序设计课程的最后一次课的作业。程序要求: 输入学生的信息,统计学生的学习时长。输入数据字段包括 :学生姓名、学号、学习时长分析:学号为主键、可能有多个学生是同名但是学号唯一。老师已经给出了模板代码,根据模板代码加以完善得到满足要求的解法,第一种是我用老师的模板代码完善的,如下:# -*- coding: utf-8...
原创
605阅读
2评论
1点赞
发布博客于 1 年前

pycharm如何开启 快速函数的参数提示--亲测OK

有的时候我们使用pycharm写代码逻辑的时候,会遇到这样一种情况,就是:仅仅记得函数的部分常用参数但是还想使用其它参数,另一种情况是不知道那个函数的参数是什么或者说忘记了。此时,给pycharm进行一些设置能够更好的提高体验和效率。也就是当鼠标放到函数那里的时候会显示出函数的参数、以及函数的返回值。也许,很多时候并不需要鼠标,也能知道。也就是打下那个函数的时候,使用方向键移到函数里面,将会...
原创
1744阅读
2评论
0点赞
发布博客于 2 年前

getpass库---快速上手使用。

期末了,老师说 建议我们一天打一题。虽然不是很想打,但我还是把这个学期上的内容的代码全部打完了。这不,发现一个还挺好玩的例子。然后改装了一下。getpass模块:保证用户输入密码时在控制台中不回显getpass.getpass(prompt=“密码:”,stream=None) #提示用户输入密码并返回getpass.getuser() #获取当前登录的用户名"""getpass模块:保...
原创
78阅读
0评论
0点赞
发布博客于 2 年前

成功导入个人solo博客数据!

整个过程是这样的:首先创建一个挂载目录,如下:然后将solo备份出的博客数据放入markdowns中:需要把post文件夹直接放入:如下:之后重新启动solo即可:docker run --detach -v /opt/solo/markdowns/:/opt/solo/markdowns/:ro --name solo --network=host --env RUNTIME_...
原创
160阅读
0评论
0点赞
发布博客于 2 年前

谈谈(详解!)MapReduce--个人感想。

MapReduce的大致计算处理过程:数据是经过mapper 然后 通过Shuffle,最后通过Reducer,然后输出。Map是映射,负责数据的过滤分发;Reduce是规约,负责数据的计算归并。mapper阶段:根据使用者的意愿,mapper对输入的数据进行操作,选取需要的字段(这个字段可能来自原数据中的值,也可能是原数据中的字段,或者是一个新的字段)和值(这个值可能来自原数据,但是更可...
原创
210阅读
0评论
0点赞
发布博客于 2 年前

记录一次pyecharts新版本的可视化

pyecharts 是一个用于生成 Echarts 图表的类库。Echarts 是百度开源的一个数据可视化 JS 库。用 Echarts 生成的图可视化效果非常棒,为了与 Python 进行对接,方便在 Python 中直接使用数据生成图,有三个大佬写了这个项目。以下是他们的GitHub地址:https://github.com/chenjiandongxhttps://github.com...
原创
755阅读
0评论
3点赞
发布博客于 2 年前
【超全】MySQL基础学习总结笔记(附示例代码)
发布Blink于 2 年前
西游记团队中如果需要裁掉一个人,会先裁掉谁?
发布Blink于 2 年前
使用xshell连接linux之后出现/usr/bin/xauth: error in locking authority file /home/*/.Xauthority,只读文件系统 的解决方法
发布Blink于 2 年前

当年轻不再年轻

发布Blink于 2 年前

使用xshell连接linux之后出现/usr/bin/xauth: error in locking authority file /home/*/.Xauthority,只读文件系统 的解决方法

重启解决,我的一重启就解决了,我也很奇怪,上一次出现这个情况还是因为anaconda里的jupyter造成的,具体忘记了;这次是把默认启动方式设置为命令行启动之后,重启就解决了emmmm...
原创
4114阅读
0评论
0点赞
发布博客于 2 年前

centos7下hadoop2.7.7--HA高可用全分布式搭建

一、概述(1)hadoop-HA集群运作机制介绍  所谓HA,即高可用(7*24小时不中断服务)  实现高可用最关键的是消除单点故障  hadoop-ha严格来说应该分成各个组件的HA机制——HDFS的HA、YARN的HA(2)HDFS的HA机制详解  通过双namenode消除单点故障  双namenode协调工作的要点:  A、元数据管理方式需要改变:    内存中各自保存一...
原创
260阅读
0评论
0点赞
发布博客于 2 年前

centos7下使用mysql.....tar.gz包安装mysql

软件:mysql-5.7.27-el7-x86_64.tar.gz安装依赖:shell> yum search libaio # search for infoshell> yum install libaio # install library1.检查是否已经安装了mysql或者是MariaDB,如果已经安装,则先把安装的卸载:rpm -qa | grep mysq...
原创
201阅读
0评论
0点赞
发布博客于 2 年前

关于Vmware下克隆centos7之后修改配置的方案

克隆之后由于是完全的克隆过来的Linux所以需要更改这几项:操作系统物理地址、IP地址、主机名、uuid。使用vi命令删除网卡中的UUID和物理地址两行(这两行在Linux重启之后,操作系统会自动生成的,如果不进行更改会造成IP冲突),同时更改一个新的IP地址;vi /etc/sysconfig/network-scripts/ifcfg-eth0一、删除绑定文件更改完成以后保存并退出,...
原创
313阅读
0评论
0点赞
发布博客于 2 年前

linux与windows下java环境变量配置

window下:新增系统变量:CLASSPATH .;%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jarJAVA_HOME E:\Java\jdk1.8.0_202系统path变量增加子变量:%JAVA_HOME%\bin\ 和 %JAVA_HOME%\jre\bin\然后在CMD下分别输入 : java 、 javac、 java -versi...
原创
57阅读
0评论
0点赞
发布博客于 2 年前

Vmware下Centos7配置静态IP

我的VMware:网关:192.168.77.2子网IP:192.168.77.0掩码:255.255.255.01、vim /etc/sysconfig/network-scripts/ifcfg-ens33IPADDR=192.168.77.7 IP地址NETMASK=255.255.255.0 掩码GATEWAY=192.168.77.2 网关DNS1=192.168.1....
原创
64阅读
0评论
0点赞
发布博客于 2 年前

早,今天早上好冷啊

 
发布Blink于 2 年前

特征选择

一、什么是特征选择?特征选择是对 根据所研究的问题 的 数据 根据数据字段与标签或者结果之间的相关程度进行选择,是效率(所研究问题的数据对问题结果的有效影响)达到最大化。二、为什么要进行特征选择?维度灾难 - 过度拟合 : 一般经验是当数据中的列数多于行数,可能会对模型产生不好的影响,即模型会过度地拟合数据,导致模少泛化能力。此外,大量特征使得模型体积庞大,耗时,并且难以在生产中实施。...
原创
184阅读
0评论
0点赞
发布博客于 2 年前

了解自编码器

1.什么是自编码器?自动编码器是一种无监督的机器学习算法,该算法将图像作为输入并使用较少的位数来重建它。这听起来像是图像压缩,但是自动编码器和通用图像压缩算法之间的最大区别在于,在自动编码器的情况下,压缩是通过学习训练数据集来实现的。当图像类似于所使用的训练集时,虽然可以实现合理的压缩,但是自动编码器的通用图像压缩器不佳;JPEG压缩会做得更好。自动编码器在本质上类似于降维技术(例如主成分分析...
翻译
102阅读
0评论
0点赞
发布博客于 2 年前

概览激活函数-深度学习

一、什么是激活函数?典型神经元的物理结构包括细胞体(cell body)、向其他神经元发送信号的轴突(axon)和接收其他神经元发送的信号或信息的树突(dendrites)。上图中,红色圆圈代表两个神经元交流的区域。神经元通过树突接收来自其他神经元的信号。树突的权重叫作突触权值(synaptic weight),将和接收的信号相乘。来自树突的信号在细胞体内不断累积,如果信号强度超过特定阈值,...
翻译
88阅读
0评论
1点赞
发布博客于 2 年前

亲爱的CSDN, 您什么时候开启博客可备份markdown呀?

 
发布Blink于 2 年前

关于Centos7防火墙命令使用

查看防火墙状态。得到结果是running或者not runningfirewall-cmd --state在running 状态下,向firewall 添加需要开放的端口:比如:firewall-cmd --permanent --zone=public --add-port=80/tcp这样外部设备就可以访问到80端口了。重新加载配置,使得修改(刚刚的添加要开放的端口)有效。f...
原创
37阅读
0评论
0点赞
发布博客于 2 年前

Hbase javaAPI基础操作

首先,main函数如下: public static void main(String[] arg) throws Exception { Configuration conf = new Configuration(); //给conf设置地址与操作用户 conf.set("hbase地址","用户名user"); HBas...
原创
59阅读
0评论
0点赞
发布博客于 2 年前

Hbase shell过滤操作

Get 和 Scan 操作都可以使用过滤器来设置输出的范围,类似于 SQL 里面的 Where 查询条件。使用 show_filters 命令可以查看当前 HBase 支持的 过滤器类型。show_filters使用过滤器的语法格式:scan '表名',{Filter => ”过滤器(比较运算符,’比较器’)”}解释:Filter=>指明过滤的方法,整体可用大括号引用,也可...
原创
1133阅读
0评论
0点赞
发布博客于 2 年前

Hbase shell基础操作

一、数据定义命令【表级别的操作、数据库级别的操作】1.输入以下命令进入hbase控制台:hbase shell2.查看所有的表:list3.create创建表:create 'TestLab',{NAME=>'lUE’},VERSIONS=>3},{NAME=>'lab2',BLOCKCACHE=>'true'}或者 create 'TestLab',’l...
原创
47阅读
0评论
0点赞
发布博客于 2 年前

python装饰器-总结一下

装饰器放在一个函数开始定义的地方,它就像一顶帽子一样戴在这个函数的头上。和这个函数绑定在一起。在调用这个函数的时候,第一件事并不是执行这个函数,而是将这个函数做为参数传入它头顶上这顶帽子,这顶帽子称之为 装饰器 。实际上,装饰器并不是编码必须性,意思就是说,你不使用装饰器完全可以,它的出现,应该是使我们的代码:更加优雅,代码结构更加清晰将实现特定的功能代码封装成装饰器,提高代码复用率,增强...
原创
79阅读
0评论
1点赞
发布博客于 2 年前

HDFS shell基础操作

一、操作命令HDFS的操作命令是以"hdfs dfs"开头的命令,其中hdfs是Hadoop系统在Linux系统中的主命令,dfs是子命令,用户通过命令可以完成hdfs文件的复制、移动、查找、删除等操作,HDFS Shell命令的一般格式如下:hdfs dfs [通用选项]其实就是 hdfs dfs -shell命令 -参数 执行内容或者作用的对象1.创建文件夹命令:hdfs dfs...
原创
107阅读
0评论
0点赞
发布博客于 2 年前

KNN-简单方法实现---《Python3机器学习与实战》总结+案例

KNN-简单方法实现,未总结KD树。k-近邻算法是通过测量不同特征值之间的距离进行分类的。基本思路是:如果一个样本在特征空间中的k个最近邻样本中的大多数属于某一个类别,则该样本也属于这一个类别。该方法在决定类别上只依据最近的一个或几个样本的类别来决定待分类样本所属的类别,在KNN中所选择的邻居都是已经正确分类的对象。KNN的算法流程:1.计算测试数据与各个训练数据之间的距离2.按照距离的...
原创
82阅读
0评论
0点赞
发布博客于 2 年前

笔记: 常用数据预处理总结

数据清理主要使将数据中缺失的值补充完整、消除噪声数据、识别和删除离群点并解决不一致性。主要达到目标是:将数据格式标准化、异常数据清楚、错误纠正、重复数据的清楚1.异常数据处理寻找异常数据:使用统计量进行判断:设有一个合理的范围,如果某个数据远远的超出其它数据,那么这个数据或者这些个数据就有可能是异常值。使用3&原则,根据正态分布的定义,距离平均值3&以外的数值出现...
原创
150阅读
0评论
0点赞
发布博客于 2 年前