明顯有閒

要獲得相當地位,就得獲得相當財產。
私信 关注
salt2020
码龄9年

THE PRICE

  • 376,703
    被访问量
  • 131
    原创文章
  • 21,648
    作者排名
  • 55
    粉丝数量
  • 于 2012-07-18 加入CSDN
获得成就
  • 获得81次点赞
  • 内容获得21次评论
  • 获得233次收藏
荣誉勋章
TA的专栏
  • docker
    11篇
  • python
    11篇
  • nlp
    15篇
  • hadoop
  • 总结
  • 算法
  • 工具
    2篇
  • 数学
    3篇
  • 分析报告
    2篇
  • 爬虫
    2篇
  • 认知
    1篇
  • 学习笔记
    59篇
  • Messy
  • Deep Spring
  • pandas用法
    4篇
  • idea
  • R
    1篇
  • 数据可视化
    1篇
  • Latex
    2篇
  • pyTorch
    1篇
  • 机器学习
    2篇
  • SQL
    1篇
  • linux
    16篇
  • 最近
  • 文章
  • 资源
  • 问答
  • 课程
  • 帖子
  • 收藏
  • 关注/订阅

启动docker服务windows

# Docker Service on Windows can be started by using the following command:Start-Service docker# Docker Service can be stopped by running the following command:Stop-Service docker
原创
37阅读
0评论
0点赞
发布博客于 2 月前

dockerfile build时报错

报错:有 Dockerfile 文件如下:(该文件可在vs code中使用插件生成,非常方便)# For more information, please refer to https://aka.ms/vscode-docker-pythonFROM python:3.8-slim-busterEXPOSE 5000# Keeps Python from generating .pyc files in the containerENV PYTHONDONTWRITEBYTECODE=1
原创
26阅读
0评论
0点赞
发布博客于 2 月前

docker login

登录docker仓库docker login -u username -p password hub.ifchange.com向仓库推送镜像docker push hub.ifchange.com/nlp/project_recognize_server:v2.2退出当前的登录docker logout hub.ifchange.com
原创
69阅读
0评论
0点赞
发布博客于 7 月前

tf serving 部署模型

建立networkdocker network create --driver bridge bridge_gyn# 相关查询命令docker network lsdocker network inspect bridge_gyndocker network rm bridge_gyntip: 将模型的容器和network连接docker network connect bridge_gyn my_containerdocker network inspect bridge_gynd.
原创
80阅读
0评论
0点赞
发布博客于 7 月前

zip命令压缩文件

zip命令压缩文件:zip -r folder.zip folder查看文件夹大小:du -sh *du -bsh *
原创
70阅读
0评论
0点赞
发布博客于 7 月前

python文件引入问题

有以下目录结构:- cat1 - cat2 - sub.py- main.py sub.py:print('sub')main.py:from cat1.cat2 import subprint('main')则可以直接在cat1平级目录下运行main:> python main.pysubmain但是如果目录结构如下:- cat1 - cat2 - sub.py - main.py 则需要添加两行sys相关代码,才能在cat1平级目录运行m
原创
65阅读
0评论
0点赞
发布博客于 7 月前

vscode连接远程服务出错

周一上班连接远程服务怎么都连接不上,明明上周五还是好用的。step1: 检查各项配置文件,都未改动step2: 网上搜索一番,挑选一种方案,正好work:1)登录远程服务器,删除.vscode-server文件夹:rm -rf .vscode-server(查看隐藏文件的命令ll -a)2)再连接远程服务器,成功...
原创
1619阅读
0评论
0点赞
发布博客于 7 月前

python切分句子

import redef remove_space(text): """ 去除空格 """ text = text.replace(' ', '') return textdef sentence_split(text): """ 将一个段落分成若干句子,以分号,句号作为切分。 """ text = remove_space(text) start = 0 result = [] groups =
原创
559阅读
0评论
2点赞
发布博客于 8 月前

dokcer挂载本地目录

冒号之前是本地目录(宿主机目录),冒号之后是容器目录,要写成绝对路径(就是以斜线开头),否则会报错:docker run -it --name ner_gyn -v /opt/wwwroot/atom_guoyanan/lstm_trail:/lstm_trail tensorflow/tensorflow:2.1.0-gpu-py3 /bin/bash安装特定版本的tensorflow-addons:pip install tensorflow-addons==0.9.1 (适配tensorflo
原创
76阅读
0评论
0点赞
发布博客于 8 月前

台大hw1-预测pm25-手动实现gradient descent

Homework 1 - PM2.5 Predictionimport numpy as np import pandas as pd import matplotlib.pyplot as pltimport matplotlib as mpl# 先考虑比较简单的一种模型:# 9+1=10 个feature,9小时内所有pm2.5,bias# 清洗train data# 将所有的pm25数据放入到一个list中#%%def train(): all_pm25 = []
原创
90阅读
0评论
0点赞
发布博客于 9 月前

手动使用gradient descent求解linear model

假设有以下数据样本:import matplotlib.pyplot as pltimport matplotlib as mplimport numpy as npx_data = [338, 333, 328, 207, 226, 25, 179, 60, 208, 606]y_data = [640, 633, 619, 393, 428, 27, 193, 66, 226, 1591]# ydata = b + w*xdataplt.scatter(x_data, y_data)p
原创
58阅读
0评论
0点赞
发布博客于 9 月前

AI数据

Large Movie Review Dataset:This is a dataset for binary sentiment classification containing substantially more data than previous benchmark datasets. We provide a set of 25,000 highly polar movie reviews for training, and 25,000 for testing. There is addi
原创
103阅读
0评论
0点赞
发布博客于 9 月前

根据pid查看容器名

#!/bin/bash -e# Prints the name of the container inside which the process with a PID on the host is.function getName() { local pid="$1" if [[ -z "$pid" ]]; then echo "Missing host PID argument." exit 1 fi if [ "$pid" -eq "
原创
294阅读
0评论
0点赞
发布博客于 9 月前

python读取文件报错UnicodeDecodeError

读取文件时总是报错UnicodeDecodeError:‘utf-8’ codec can’t decode byte 0xe5 in position 23578431: invalid continuation byte:with open('data', mode='r', encoding='utf8') as f: lst = f.readlines() return lst解...
原创
116阅读
0评论
0点赞
发布博客于 1 年前

Linux分割合并文件

分割文件:每个文件划分1000行split -1000 file合并文件:任意多的文件合并成一个文件cat file1 file2 file3 > file
原创
50阅读
0评论
0点赞
发布博客于 1 年前

分离测评集数据

分离测评集数据是为了将原先混在一行的数据 变成一行是一行,方便自动化测评(至少半自动化)。先分离测评集数据,name和des分开放:fin = open("序列标注")fout1 = open("val_name", mode="w", encoding="utf8")fout2 = open("val_des", mode="w", encoding="utf8")for l in f...
原创
170阅读
0评论
0点赞
发布博客于 1 年前

logging模块使用

最详细的还是 官方文档最简单的使用# -*- coding:utf-8 -*-import logginglogging.debug('debug message')logging.info('info message')logging.warn('warn message')logging.error('error message')logging.critical('crit...
原创
52阅读
0评论
0点赞
发布博客于 1 年前

召回耗时

一直以为相似度的计算耗费时间,没想到召回耗时占了大头:def all_entity_dict(): tag_sys_path = "tags_clean.txt" # tag_sys_path = "/workdir/data/tags_clean.txt" f = open(tag_sys_path,"r",encoding="utf8") # 对 merge_all...
原创
94阅读
0评论
0点赞
发布博客于 1 年前

pickle使用

import picklevec_path = "entity_vec.pkl"with open(vec_path, 'wb') as fw: pickle.dump(vec_dic, fw)with open(vec_path, 'rb') as fr: vec_dic = pickle.load(fr)print(vec_dic["网络管理系统"][:5])#...
原创
56阅读
0评论
0点赞
发布博客于 1 年前

numpy求均值

import numpy as npa = [[1,1,1],[2,2,2]]print(np.mean(a, axis=0))# output[1.5 1.5 1.5]
原创
499阅读
0评论
0点赞
发布博客于 1 年前

git使用

git pushpush 当前分支遇到报错:[atom_guoyanan@kdd7224 project_recognize]$ git pushwarning: push.default is unset; its implicit value is changing inGit 2.0 from 'matching' to 'simple'. To squelch this messa...
原创
137阅读
0评论
0点赞
发布博客于 1 年前

基于gensim的lda实践2

import pandas as pdimport jiebafrom gensim.test.utils import common_textsfrom gensim.corpora.dictionary import Dictionaryfrom gensim.models.ldamodel import LdaModeldef jieba_add_words(): """...
原创
92阅读
1评论
0点赞
发布博客于 1 年前

docker从镜像启动容器, 从容器制作镜像

docker run -d --name=entity -m 32G -p $port:$port -v $dirpath:/workdir $img_name:$tag python /workdir/run_server.pydocker run -it --runtime=nvidia -e NVIDIA_VISIBLE_DEVICES=1 需要启动的docker名称 bashdo...
原创
247阅读
0评论
0点赞
发布博客于 1 年前

基于官方的tensorflow镜像来打镜像

Dockerfile:# FROM python:3.6# 基于的基础镜像# FROM tensorflow/tensorflow:latest-devel-gpu-py3# 1.12.0-gpu-py3 是基于python3.5.2的版本:FROM tensorflow/tensorflow:1.12.0-gpu-py3 #创建workdir文件夹RUN mkdir /work...
原创
660阅读
0评论
0点赞
发布博客于 1 年前

linux查看端口占用情况

查看占用端口的进程:netstat -apn|grep <端口号>netstat -apn|grep 6606tcp 0 0 10.65.42.27:6606 172.22.142.20:62771 ESTABLISHED 9435/lighttpd杀掉该进程:kill -9 <pid>kil...
原创
73阅读
0评论
0点赞
发布博客于 1 年前

docker部署服务注意端口设置

在已有的容器中启动了一个etornado服务。先查看该容器暴露的端口:$ docker ps|grep gpu40f7eeff4f0f4 hub.ifchange.com/nlp/gpu4:20190917 "bash" 3 months ago Up 2 weeks ...
原创
227阅读
0评论
0点赞
发布博客于 1 年前

基于tornado的http服务框架

etornado地址:https://pypi.org/project/etornado/0.0.3/#historyetornado是tornado的进一步封装,使用起来更加方便。安装etornado 0.1.6版本,该版本基于python 3.6,所以:先用conda创建py36环境: conda create --name py36 python=3.6激活该环境:conda act...
原创
77阅读
0评论
0点赞
发布博客于 1 年前

pip默认镜像地址

pip默认镜像地址:https://pypi.org/simple# etornado=0.1.6 是基于python3.6的,其余都是基于3.7# etornado地址:https://pypi.org/project/etornado/0.0.3/#historypip install -i https://pypi.org/simple etornado=0.1.6 ...
原创
202阅读
0评论
0点赞
发布博客于 1 年前

git clone报错could not create work tree dir 'project_recognize'.: Permission denied

git clone报错:Permission denied$ git clone https://gitlab.ifchange.com/nb4/project_recognize.gitfatal: could not create work tree dir 'project_recognize'.: Permission denied因为当前的这个目录deploy是在docker中由...
原创
2950阅读
0评论
0点赞
发布博客于 1 年前

根据词表获得预训练的字向量

根据词表获得预训练的字向量:import pickleimport tqdmimport numpy as npfrom nlutools import tools as nludef gene_embedding(): vocab_path = "./word2id.pkl" with open(vocab_path, 'rb') as f: word...
原创
172阅读
0评论
0点赞
发布博客于 1 年前

tensorflow保存模型和导入模型

基于tf 1.12.0版本保存模型:import tensorflow as tf import numpy as np## 保存模型W = tf.Variable([[1,2,3],[1,2,3]],dtype=tf.float32, name="weights")b = tf.Variable([[1,1,1]], dtype=tf.float32, name="biases")...
原创
57阅读
0评论
0点赞
发布博客于 1 年前

bilstm-crf

model.pyimport numpy as npimport os, time, sysimport tensorflow as tffrom tensorflow.contrib.rnn import LSTMCellfrom tensorflow.contrib.crf import crf_log_likelihoodfrom tensorflow.contrib.crf i...
原创
165阅读
0评论
0点赞
发布博客于 1 年前

gensim加载bin格式的词向量模型

filepath = "/opt/wwwroot/atom_guoyanan/data/vector2.0/fasttext.bin"model = gensim.models.fasttext.load_facebook_vectors(filepath)print(model['核'])[ 0.1335077 0.9915103 0.28807437 0.7358422 ...
原创
772阅读
0评论
0点赞
发布博客于 1 年前

实体链接

假设已经从一段文本中找到了实体序列,接下来要将序列链接到某一实体。链接策略:计算序列和每个实体的tf-similarity,召回阈值大于0.5的实体(及别名)计算序列和实体的余弦相似度:0.5*simi(序列,实体) + 0.5*top_simi(序列,别名s)以上得分top1就是序列最终链接到的实体code:import logging, osfrom tqdm import ...
原创
143阅读
0评论
0点赞
发布博客于 1 年前

shell中查看cpu的核数

cat /proc/cpuinfo| grep "cpu cores"| uniqcpu cores : 12
原创
439阅读
0评论
0点赞
发布博客于 2 年前

mac安装selenium

下载seleniumpip install selenium下载chromedrive下载地址:ChromeDriver - WebDriver 选择相应版本进行下载。(tip: 需要科学上网)chromedrive解压后放到bin下放到跟lib同一级目录下的bin里:# 查看lib的路径pip --versionpip 19.0.3 from /Users/guoya...
原创
84阅读
0评论
0点赞
发布博客于 2 年前

git push时报错:WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED!

产生报错:(base) ➜ git:(master) ✗ git push@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED! @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@...
原创
158阅读
0评论
1点赞
发布博客于 2 年前

mac系统 使用vscode连接远程服务器

本机运行 ssh-keygen 生成公钥将公钥 “~/.ssh/id_rsa.pub” 内容复制到远程主机 ~/.ssh/authorized_keys 文件末尾本机.ssh/config 文件末尾增加如下设置:vscode 下载插件 Remote-SSH,点击左下角绿色按钮,cmd palatte中选择"connect to host":选择远程主机,输入对应的登录密码,连接成功。...
原创
2650阅读
0评论
0点赞
发布博客于 2 年前

docker 常用命令

进入运行中的容器docker exec -it f8ca205bad35 /bin/bashroot@f8ca205bad35:/profile# docker exec 进入,退出时容器继续运行;docker attach 进入,退出时容器停止运行(不建议用此命令)。运行容器(进入交互界面)docker run -it -p 52020:52020 -v /opt/us...
原创
59阅读
0评论
0点赞
发布博客于 2 年前

conda导出环境和pip导出环境

导出项目用到的包:先安装pipreqspip install pipreqs进入到项目目录下,导出包pipreqs --force检查当前目录,发现已经重新生成了requirements.txt文件,其中只有项目用到包requests==2.21.0etornado==0.1.3导出当前环境用到的包:pip freeze > requirements.txt...
原创
940阅读
0评论
0点赞
发布博客于 2 年前

macos下使用ffmpeg剪辑音视频

安装因为下载.zip包之后还需要编译,所以使用brew命令安装最方便:$ brew install ffmpeg我安装的过程中遇到报错,部分内容如下:The `brew link` step did not complete successfully The formula built, but is not symlinked into /usr/local Could not sym...
原创
245阅读
0评论
0点赞
发布博客于 2 年前

tar压缩解压文件/文件夹

tar压缩文件/文件夹:$ tar -cvf test.tar test.txta test.txt$ tar -cvf snow.tar snowa snowa snow/log.txttar解压文件/文件夹:$ tar -xvf test.tarx test.txt$ tar -xvf snow.tarx snow/x snow/log.txt...
原创
122阅读
0评论
0点赞
发布博客于 2 年前

plain python两两循环比较算法

import numpy as nplst = np.arange(1500)tmp = list(lst[:5])print(tmp)[0, 1, 2, 3, 4]for i in tmp[::-1]: tmp.pop() print(i)43210%timedic = {}def make_dic(p,center):# if t...
原创
765阅读
0评论
0点赞
发布博客于 2 年前

直接在 termianl 中用 vscode 打开文件夹或者文件

直接在 termianl 中用 vscode 打开文件夹或者文件macOS 需要先在vscode中手动安装 code 命令到 path:terminal中用命令控制 在新的vscode窗口中打开文件夹:$ code -n folde_path或者在当前文件夹下使用命令:$ code -n .新的vscode窗口随即出现:...
原创
411阅读
1评论
1点赞
发布博客于 2 年前

用python3下载youku,bilibili等视频

step1 命令行安装you-get包$ pip install you-getCollecting you-get Downloading https://files.pythonhosted.org/packages/89/86/359cb6d3720aded1e21acf090ba411d14c0fa94d401ff25780837b58c085/you_get-0.4.135...
原创
779阅读
0评论
0点赞
发布博客于 2 年前

删除docker镜像时报错:image is referenced in multiple repositories

删除docker镜像时报错:image is referenced in multiple repositories$ docker rmi a69b1f41c444Error response from daemon: conflict: unable to delete a69b1f41c444 (must be forced) - image is referenced in multi...
原创
214阅读
0评论
0点赞
发布博客于 2 年前

删除__pycache__时显示 Permission denied 的解决办法

在服务器上从git拉取代码,并挂载到docker容器中运行,后来停止运行的容器,想删除服务器上的代码,发现其中的文件夹 __pycache__ 不能删除:$ rm -rf c_jd_company_profile/rm: cannot remove 'c_jd_company_profile/__pycache__/utils.cpython-37.pyc': Permission denie...
原创
713阅读
0评论
0点赞
发布博客于 2 年前

设置pip安装源

step1:没有文件夹.pip的话先新建,mkdir ~/.pipstep2:vim ~/.pip/pip.confstep3:写入内容:[global]index-url = http://pypi.douban.com/simple[install]trusted-host = pypi.douban.com...
原创
140阅读
0评论
0点赞
发布博客于 2 年前

使用flask时报错 [Errno 98] Address already in use

python 启动服务时,报错:OSError: [Errno 98] Address already in use原因:上次结束服务时,使用control+z,并没有真正结束进程。(control+c 能够结束进程)解决:查看本机5000端口 进程(base) [atom_guoyanan@kdd7216 灵工]$ netstat -tlnp|grep 5000# 返回(N...
原创
996阅读
0评论
1点赞
发布博客于 2 年前

Protocol buffers--python 实践

Protocol Buffers 是google开发的一个可以序列化 反序列化object的数据交换格式,类似于xml,但是比xml 更轻,更快,更简单。而且和xml json等数据序列化一样,跨平台跨语言。安装直接从 github 上下载整个项目 protobuf解压,进入到 python 目录下Build and run the tests:python setup.py bui...
原创
87阅读
0评论
0点赞
发布博客于 2 年前

pd.read_parquet()报错

使用 pd.read_parquet() 时产生如下报错:$ python read_parquet.pyTraceback (most recent call last): File "read_parquet.py", line 3, in <module> df = pd.read_parquet('t1') File "/opt/userhome/atom_...
原创
2748阅读
0评论
0点赞
发布博客于 2 年前

将稠密矩阵转化为稀疏矩阵

import numpy as npfrom scipy import sparse# dense matrixA = np.array([[1,2,0],[0,0,3],[1,0,4]])# sparse matrixsA = sparse.csr_matrix(A)# print dense matrixprint(A)[[1 2 0][0 0 3][1 0 4]]...
原创
3070阅读
0评论
0点赞
发布博客于 2 年前

正则表达式

正则表达式的全部符号表示:符号描述\转义符。例如,‘n’ 匹配字符 “n”。’
’ 匹配一个换行符。序列 ‘\’ 匹配 “” , “(” 则匹配 “(”。^匹配输入字符串的开始位置。$匹配输入字符串的结束位置。*匹配前面的子表达式零次或多次。例如,zo* 能匹配 “z” 以及 “zoo”。* 等价于{0,}。+匹配前面的子表达式一次或多次。...
原创
45阅读
0评论
0点赞
发布博客于 2 年前

基于gensim的lda实践

基于gensim的lda实践from gensim.test.utils import common_textsfrom gensim.corpora.dictionary import Dictionaryfrom gensim.models.ldamodel import LdaModel# Create a corpus from a list of textstexts = [...
原创
778阅读
0评论
0点赞
发布博客于 2 年前

linux环境下安装anconda

安装将 anconda 的 linux版安装包下载到 linux服务器上:附:anconda安装包列表$ wget https://repo.anaconda.com/archive/Anaconda3-2019.03-Linux-x86_64.sh安装$ sh Anaconda3-2019.03-Linux-x86_64.sh安装程序会询问是否把bin目录加入PATH(L...
原创
287阅读
0评论
0点赞
发布博客于 2 年前

pandas按照 某类别 等比例划分test集

df = pd.read_csv('data4000.csv') # 读取数据test = pd.DataFrame() # 划分出的test集合train = pd.DataFrame() # 剩余的train集合tags = df['标签'].unique().tolist() # 按照该标签进行等比例抽取for tag in ...
原创
1578阅读
0评论
3点赞
发布博客于 2 年前

latex 字母加粗

latex 中字母的常规表示:$$ w $$wwwlatex 中字母常规加粗,也就是不改变斜体:$$ \boldsymbol w $$w \boldsymbol w wlatex 中字母加粗(改变斜体),经常用于表示向量:$$ \mathbf w $$w \mathbf w w...
原创
5102阅读
0评论
2点赞
发布博客于 2 年前

LDA主题模型代码实践

# 建立停用词表with open('LDA-data/stop_words.txt','r', encoding='gbk') as f: content = f.read() stop_list = set(content.splitlines())stop_list.add(' ') # 单独增加空格符,没办法表示在txt文档中# 读取数据df = pd.read_c...
原创
1502阅读
0评论
0点赞
发布博客于 2 年前

linux 查看文件的相关命令

linux 查看文件的相关命令# 查看文件一共多少行> wc -l tem_work2.txt338268 tem_work2.txt# 输出前n行> head -4 tem_work2.txt256082工作描述:协助公司总经理对公司事务进行管理,并分管计划运营及报建工作。4122700工作描述:目前担任集团副总裁兼营销事业部总经理,管理销售,市场等共计600多人...
原创
70阅读
0评论
0点赞
发布博客于 2 年前

二项式分布和多项式分布

二项式定理(x+y)n=∑r=0n(nr)xryn−r=∑r=0nn!r!(n−r)!xryn−r (x+y)^n = \sum_{r=0}^n {n \choose r} x^r y^{n-r} = \sum_{r=0}^n \frac{n!}{r!(n-r)!} x^r y^{n-r} (x+y)n=r=0∑n​(rn​)xryn−r=r=0∑n​r!(n−r)!n!​xryn−reg:...
原创
903阅读
0评论
0点赞
发布博客于 2 年前

knn最近邻算法(有监督学习)

knn最近邻算法(有监督学习)KNN算法缺点例子数据可视化sklearn实现KNN对有标签的数据进行分类。计算所有样本和x的距离,得到距离最近的k(k为超参数)个样本点,哪种类别占据多数,x就被划分为哪一类。k值一般选择为奇数,方便进行多数类别的统计。欧式距离(Euclidean distance):d=(x1−y1)2+(x2−y2)2+...+(xn−yn)2 d = \sqrt {...
原创
675阅读
0评论
0点赞
发布博客于 2 年前

mac系统 mysql 修改默认密码

mac系统 mysql 修改默认密码注:mysql在mac下的路径是 /usr/local/mysql/bin先在系统设置中关闭mysql服务(如果启动了mysql服务的话)在终端使用命令sudo /usr/local/mysql/bin/mysqld_safe --skip-grant-tables,以安全模式启动mysql服务$ sudo /usr/local/mysql/bin/...
原创
638阅读
0评论
0点赞
发布博客于 3 年前

pandas使用之宽表变窄表

import pandas as pd# 伪造一些数据fake_data = {'subject':['math', 'english'], 'A': [88, 90], 'B': [70, 80], 'C': [60, 78]}# 宽表test = pd.DataFrame(fake_data, columns=[...
原创
3318阅读
0评论
0点赞
发布博客于 3 年前

机器学习之欠拟合,过拟合

机器学习之欠拟合,过拟合
原创
165阅读
0评论
0点赞
发布博客于 3 年前

pytorch 笔记之squeeze

squeeeze使用 torch.squeeze(input, dim=None, out=None) → Tensor Returns a tensor with all the dimensions of input of size 1 removed.简单来说,squeeze只压缩所有长度为1的维度。如果指定dim(int, optional),则在指定的维度上压缩,且只...
原创
513阅读
0评论
0点赞
发布博客于 3 年前

pandas 分组计数 取出前n条记录

pandas 分组计数 取出前n条记录总的来说,两行代码即可搞定。test_data.groupby('release_year')['genre'].value_counts()# output,结果为 Seriesrelease_year genre 1960 Drama 13 Act...
原创
9592阅读
0评论
2点赞
发布博客于 3 年前

Latex 公式换行 等号左对齐

Latex 公式换行 等号左对齐示例:\begin{equation}\begin{aligned}X^TXh - X^TY&amp;= \begin{bmatrix} x_1 &amp; x_2 &amp; ... &amp; x_n\\ 1 &amp; 1 &amp; ... &amp; 1\end{bmatrix}\begin{bmatrix} x_1 ...
原创
8142阅读
0评论
0点赞
发布博客于 3 年前

tableau学习资源

Tableau官方推荐项目集 Tableau官方培训视频 Tableau官方在线指南 Udemy的Tableau相关课程 Coursera的Tableau专项课程 Coursera的Tableau单项课程 数据可视化博客VizWiz...
原创
1867阅读
0评论
3点赞
发布博客于 3 年前

ggplot2 包画分组 boxplot

## 对不同质量组的挥发性酸含量绘制箱线图## 叠加了散点图 和 每组数据的均值library(ggplot2)ggplot(data=winered, aes(x = factor(quality), y = volatile.acidity)) + geom_jitter(alpha = .3, color = '#9bacb9') + geom_boxplot(alpha =...
原创
5919阅读
0评论
0点赞
发布博客于 3 年前

python 中 zip 的使用及 * 的使用

zip: 将相同维度的值合并在一起。a = [10, 20]b = [3, 4]list(zip(a,b))## output[(10, 3), (20, 4)]顺带说一下python中函数的参数 *args 的含义:让函数接受不定长参数。dic = {'a':0, 'b':1, 'c':2}dic.items()## outputdict_items([('a',...
原创
867阅读
0评论
1点赞
发布博客于 3 年前

R 探索多变量

34 Plotting Conditional Summariespf.fc_by_age_gender ggplot(data = pf.fc_by_age_gender,aes(x = age, y = median_friend_count)) + geom_line(color = age) 注意这里的图像跟直方图的区别。之前有一个 直方图/频率多...
原创
350阅读
0评论
0点赞
发布博客于 3 年前

R 画图遇到的问题

&gt; ggplot(aes(x = age, y = friend_count), data = pf) + coord_cartesian(xlim = c(13, 90)) + geom_point(alpha = 1/20, position = position_jitter(h = 0), color = 'orange')...
原创
480阅读
0评论
0点赞
发布博客于 3 年前

R 分析两个变量

条件均值install.packages('dplyr')library(dplyr)# 其中的常见函数filter()group_by()mutate()arrange() 更多关于 dplyr 包的信息 Hadley Wickham 于 2014 年在 useR 公布的教程: dplyr 简介 dplyr 教程(第 1 部分) dplyr ...
原创
1317阅读
0评论
0点赞
发布博客于 3 年前

R 频率多边形

# 改变y轴坐标,以频率作为标度qplot(x = friend_count, y = ..count../sum(..count..), data = subset(pf, !is.na(gender)), xlab = 'Friend Count', ylab = 'Proportion of Users with that friend c...
原创
734阅读
0评论
0点赞
发布博客于 3 年前

R 点重合处理,坐标变换

绘制散点图时,经常会有点过分重合的情况,为了更好地进行可视化,可以使用以下方法进行改善。一. 设置透明度ggplot(aes(x = age, y = friend_count), data = pf) + geom_point(alpha = 1/10) + xlim(13, 90)二. 设置抖动ggplot(aes(x = age, y = friend_count...
原创
699阅读
0评论
0点赞
发布博客于 3 年前

R 分析单一变量 总结

查看单一变量变量类型, 分布状态, 是否有缺失值和异常值。可视化工具直方图, 箱线图, 频数多边形。调整直方图组距, x轴,y轴的限制, 变量的对数变换, 变量的二进制变换。...
原创
778阅读
0评论
0点赞
发布博客于 3 年前

R 变量的逻辑转换

# 读取数据pf &amp;lt;- read.csv('pseudo_facebook.tsv', sep = '\t')&amp;gt; summary(pf$mobile_likes) Min. 1st Qu. Median Mean 3rd Qu. Max. 0.0 0.0 4.0 106.1 46.0 25111.0 &amp;gt; summar...
原创
2035阅读
0评论
0点赞
发布博客于 3 年前

R install.packages() 设置国内CRAN镜像

使用 install.packages() 安装R包时,总是比较慢,有时甚至安装失败,失败情形如下:&amp;gt; install.packages('gridExtra')Warning in install.packages : unable to access index for repository https://cran.rstudio.com/src/contrib: 无法打...
原创
21469阅读
2评论
9点赞
发布博客于 3 年前

R 中进行对数变换

R 中进行对数变换说明:这篇文章是我在学习 R 时看到的,感觉很有用,就翻译了过来。原文:Log Transformations for Skewed and Wide Distributions—– 正文分割线 —– 当数据分布大致对称时,用均值和标准差对数据进行归一化是非常有意义的。在本文中,基于第4章 实用数据科学与R,作者展示了一种可以使某些分布更加对称的转换。是否对...
翻译
19238阅读
0评论
2点赞
发布博客于 3 年前

R 中对数据进行汇总

f &lt;- read.delim('pseudo_facebook.tsv')&gt; summary(f) userid age dob_day dob_year dob_month Min. :1000008 Min. : 13.00 Min. : 1.00 Min. ...
原创
559阅读
0评论
0点赞
发布博客于 3 年前

R 笔记

top-coded
原创
115阅读
0评论
0点赞
发布博客于 3 年前

ggplot2 绘图

facet_wrap(formula) facet_wrap(~variable)facet_grid(formula) facet_grid(vertical ~ horizontal)pf &amp;amp;amp;amp;amp;amp;amp;lt;- read.delim('pseudo_facebook.tsv')qplot(x=dob_day, data=pf) + scale_x_continuous(breaks...
原创
205阅读
0评论
0点赞
发布博客于 3 年前

R 数据类型之factor

FactorsThe term factor refers to a statistical data type used to store categorical variables. categorical variable 对比 continuous variable
原创
1170阅读
0评论
1点赞
发布博客于 3 年前

R 基本使用

# 查看当前工作目录getwd()# 设置当前工作目录setwd('/Users/jupyter/lesson2')# 读入数据statesInfo &amp;amp;amp;amp;amp;amp;lt;- read.csv('statesData.csv')# 获取子数据集subset(statesInfo, state.region == 1)# 另一种方式 获取子数据集statesInfo[statesInfo...
原创
171阅读
0评论
0点赞
发布博客于 3 年前

EDA 笔记

用直方图来展示任何给定年份电视尺寸的分布;标注数据中位数;说明数据来源,必要时附加说明,分析其可靠性(任何时候都该对数据可能讲出的故事保持怀疑);对时间序列做分析,尺寸上涨了还是下降了。 Nathan Yau《电视尺寸的发展》...
原创
324阅读
0评论
0点赞
发布博客于 3 年前

pandas删除含有空值的行

df.dropna(axis=0, how='any', inplace=True)axis:0-行操作(默认),1-列操作 how:any-只要有空值就删除(默认),all-全部为空值才删除 inplace:False-返回新的数据集(默认),True-在愿数据集上操作...
原创
67095阅读
2评论
10点赞
发布博客于 3 年前

pandas 中True, False的妙用

True, False能方便地用来计算总和(即个数)和均值(即占比)。 data['Comedy'] = data['genres'].str.contains('Comedy')data['Drama'] = data['genres'].str.contains('Drama')## 注意,这里不能用count,count也会计入false的个数result = data.gro...
原创
4040阅读
0评论
1点赞
发布博客于 3 年前

pandas 筛选数据,同时满足多个条件

top10_dire = df_dire.groupby('dire').id.agg('count').sort_values(ascending=False)[:10]## top10_diredireWoody Allen 46Clint Eastwood 34Martin Scorsese 31Steven Spielberg 3...
原创
16619阅读
1评论
3点赞
发布博客于 3 年前

matplotlib 同一个画布绘制多张图,主次刻度,竖线

import matplotlib.pyplot as pltimport seaborn as snssns.set()# 要分析的数据profit = df_profit.groupby('release_year')['profit'].agg(['mean','sum','count'])# 在同一个画布中绘制两张图plt.figure(figsize=(15,15))#...
原创
9557阅读
0评论
3点赞
发布博客于 3 年前

pandas筛选数据时可能会遇到的报错

df[df['director'].str.contains('|')]## outputValueError: cannot index with vector containing NA / NaN values## 仔细查看数据df.director.str.contains('|').unique()## outputarray([True, nan], dtype=obj...
原创
9629阅读
1评论
4点赞
发布博客于 3 年前

pandas 之 value_counts(), unique()

.value_counts() 统计不同值的个数,不包括 NaN;unique() 用来展示每个不同的值,包括 NaN。test = pd.DataFrame({'a': [1, 1, np.NaN, 2, 3], 'b': [1, 2, 3, 4, 5], 'c': np.random.randn(5)})test[...
原创
5026阅读
0评论
2点赞
发布博客于 3 年前

np.r_的用法

# 读取前1~20行以及48、49行的数据 (note: pandas 的行标签从0开始)ind = list(range(20)) + list([47,48])df.iloc[ind]
原创
637阅读
0评论
0点赞
发布博客于 3 年前

pandas中 isnull() 和 any() 的联合使用

# 查看各列是否存在空值,True表示有空值movie_data.isnull().any(axis=0)## outputid Falseimdb_id Truepopularity Falsebudget Falserevenue ...
原创
6931阅读
0评论
2点赞
发布博客于 3 年前

numpy,pandas,matplotlib速查手册

速查手册: numpy cheat sheet pandas cheat sheet matplotlib cheat sheet
原创
838阅读
0评论
1点赞
发布博客于 3 年前

magic 关键字

在分辨率较高的屏幕(例如 Retina 显示屏)上,notebook 中的默认图像可能会显得模糊。可以在 %matplotlib inline 之后使用 %config InlineBackend.figure_format = 'retina' 来呈现分辨率较高的图像...
原创
209阅读
0评论
0点赞
发布博客于 3 年前

NumPy简介

NumPy简介NumPy 代表 Numerical Python,是python中科学计算的基础包。1 为何要使用 NumPyNumPy 用c语言编写,运行速度快:import time import numpy as np x = np.random.random(100000000)## plain python计算平均值start = time.time()...
原创
157阅读
0评论
0点赞
发布博客于 3 年前

subprocess模块call的用法

subprocess模块用来创建新的进程,连接到其stdin、stdout、stderr管道并获取它们的返回码。from subprocess import callcall(['python3','-m','nbconvert','assessing.ipynb'])## output,若成功,返回代码0,失败则返回大于0的数字0等同于在shell中直接运行命令:guodeMa...
原创
21072阅读
2评论
0点赞
发布博客于 3 年前

pandas 按照特定顺序输出

df.groupby() 之后按照特定顺序输出,方便后续作图,或者跟其他df对比作图。## 构造 pd.DataFramepatient_id = ['71835318256532', '87791375711', '66979212649388', '46569922967175', '998612492555522', '982293214194', '89981833848...
原创
1435阅读
0评论
0点赞
发布博客于 3 年前

pandas 中同时得到value和对应的index

有时对于 pd.Series, 得到最大值的同时 也需要得到对应的标签,示例:## 构造 pd.Seriesd = [12, 4, 4, 8, 8, 2, 8, 10, 5, 4]ind = ['FERRARI 612 Scaglietti', 'HONDA Accord', 'SUBARU Forester', 'FORD F150 STX SE', 'FORD F150',...
原创
2415阅读
0评论
0点赞
发布博客于 3 年前

Shell 常用命令

本机系统为mac os,但是
原创
842阅读
0评论
0点赞
发布博客于 3 年前