自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(51)
  • 资源 (1)
  • 收藏
  • 关注

原创 豆瓣API

获取正在热映的电影:https://douban.uieee.com/v2/movie/in_theaters访问参数:start : 数据的开始项 count:单页条数 city:城市 获取电影Top250:https://douban.uieee.com/v2/movie/top250访问参数:start : 数据的开始项 count:单页条数 获取即将上映电影:h...

2019-12-29 11:21:25 780

原创 archlinux crontab安装

Install Crontab in ArchLinux$ pacman -S cronieEnable the cronie at startup.$ systemctl enable cronie.service$ systemctl start cronie.serviceDisplay the crontab jobs$ crontab -lEdit the cr...

2019-12-26 11:37:17 1624

原创 archlinux cn源

[archlinuxcn]# The Chinese Arch Linux communities packages.# SigLevel = Optional TrustedOnlySigLevel = Optional TrustAll# 官方源Server = http://repo.archlinuxcn.org/$arch# 163源Server = http://mi...

2019-12-24 21:30:44 1155

原创 archlinux安装chrome-webdriver

pacman官方链接里面没有google-chrome的安装包,不过这怎么能难过archLinux的用户,在aur用户里面有chrome的安装包,第一步安装trizen。trizen的github链接安装trizengit clone https://aur.archlinux.org/trizen.gitcd trizenmakepkg -si安装chrome–trizen -...

2019-12-24 16:24:20 2096

原创 Vscode 过滤.pyc文件

shift + command + p之后输入setting在工作目录中加入一下配置文件{ "files.exclude": { "**/.git": true, "**/.svn": true, "**/.hg": true, "**/*.pyc": true, "**/.DS_Store": true...

2019-12-24 16:09:19 756

原创 抓豆瓣的电影评论数据

# -*- coding:utf-8 -*-'''抓取豆瓣电影某部电影的评论这里以《我不是潘金莲为例》网址链接:https://movie.douban.com/subject/26630781/comments为了抓取全部评论需要先进行登录'''pythonfrom selenium import webdriverimport timeimport codecsimport...

2019-12-24 16:07:22 805

原创 webdriver Google-chrome crashed

解决webdriver中报错。raise exception_class(message, screen, stacktrace)selenium.common.exceptions.WebDriverException: Message: unknown error: Chrome failed to start: exited abnormally (unknown error: De...

2019-12-24 16:03:35 434

原创 python文件读写

# encoding:utf-8# 文件读取操作fp=open("/Users/andrew/Dedesktop/file.txt","r",encoding="utf-8" )data_read=fp.read()#一次性全部读完fp.seek(0,0)#游标移动到第一行,继续读,否则读取到的是空data_readlines=fp.readlines()fp.close()prin...

2019-12-24 15:58:30 286

原创 sklearn gridcv

cv_params = {'gamma':[0.1,0.2,0.3,0.4,0.5,0.6], 'max_depth': [12,14,16,18,20,23,25,30,50], 'eta': [0.007,0.008,0.009,0.1,0.1], 'subsample': [0.7,0.9,0.3,0.2,0.4,0...

2019-12-24 15:55:18 358

原创 切换pip源为清华

pypi 镜像使用帮助pypi 镜像每 5 分钟同步一次。临时使用pip install -i https://pypi.tuna.tsinghua.edu.cn/simple some-package注意,simple 不能少, 是 https 而不是 http设为默认升级 pip 到最新的版本 (>=10.0.0) 后进行配置:pip install pip -Upip ...

2019-12-24 10:31:37 425

原创 Arch安装zsh以及通过 Oh-My-ZSH! 开源项目的配置

Arch安装zsh以及通过 Oh-My-ZSH! 开源项目的配置首先:安装官方源的 zsh$ sudo pacman -S zsh安装 wget 、git 并获取开源项目的安装脚本$ sudo pacman -S wget$ sudo pacman -S git$ wget https://github.com/robbyrussell/oh-my-zsh/raw/master/to...

2019-12-20 23:00:12 1701

原创 sklearn API快速上手

传统的机器学习任务从开始到建模的一般流程是:获取数据 -> 数据预处理 -> 训练建模 -> 模型评估 -> 预测,分类。本文我们将依据传统机器学习的流程,看看在每一步流程中都有哪些常用的函数以及它们的用法是怎么样的。希望你看完这篇文章可以最为快速的开始你的学习任务。1. 获取数据1.1 导入sklearn数据集sklearn中包含了大量的优质的数据集,在你学习机器学...

2019-12-19 17:29:10 303 1

原创 xgboost进行分类具体实现

简单介绍:赛题来源是天池大数据的 “商场中精确定位用户所在店铺”。原数据有114万条,计算起来非常困难。为了让初学者有一个更好的学习体验,也更加基础,我将数据集缩小了之后放在这里,密码:ndfd。供大家下载。import pandas as pdimport xgboost as xgbfrom sklearn import preprocessing train = pd.rea...

2019-12-19 14:12:58 1985

原创 fastText文本分类cheatsheet

id: cheatsheettitle: CheatsheetWord representation learningIn order to learn word vectors do:$ ./fasttext skipgram -input data.txt -output modelObtaining word vectorsPrint word vectors for a t...

2019-12-19 11:42:45 312

原创 如何在MAC 指定文件夹打开终端(terminal)

学python的时候,创建发布需要在指定文件夹打开终端。可以按照以下方式设置:进入‘系统偏好设置’->‘键盘’->‘快捷方式’->‘服务’勾选 新建位于文件夹位置的终端标签 , 新建位于文件夹位置的终端窗口。设置快捷命令例如用户control + command + T,但是不行,这个被占用,选择control + command + M没毛病打开服务偏好设置...

2019-12-19 11:38:32 4878 1

原创 xgboost api

import xgboost as xgb读取数据dtrain = xgb.DMatrix(‘demo/data/agaricus.txt.train’)dtest = xgb.DMatrix(‘demo/data/agaricus.txt.test’)通过 map 指定参数param = {‘max_depth’:2, ‘eta’:1, ‘silent’:1, ‘objective’:...

2019-12-19 11:07:33 830

原创 markdown语法

Markdown常用语法常用语法1. 实现缩进2. 实现换行3. 字体大小、颜色、类型、加粗、倾斜4. 代码块5. 超链接6. 分割线7. 标题常用语法old brother, stable markdown是一种纯文本格式的标记语言。通过简单的标记语法,它可以使普通文本内容具有一定的格式。1. 实现缩进两种方案手动输入空格 ( )...

2019-12-19 10:43:10 255

原创 arch更新失败的办法

使用arch 的日常更新的时候,由于软件包巨大或者镜像不稳定的时候,会发现失败的场景,这个时候可以安装一部分更新,选择忽略哪些不能更新的部分。在上面加 – ignore packagename...

2019-12-18 14:13:37 744

原创 从零开始学习tensorflow2.0之熟悉tf2.0的数据

导入tensorflow2.0安装tensorflow2.0,使用pip安装,在jupyter notebook之中!pip install tensorflow!pip install tensorflow-gpuimport tensorflow as tfprint(tf.__version__)2.0.02.0.0tf中的常量x = tf.constant(rang...

2019-12-16 14:27:20 446

原创 manjaro无效的软件包

1.首先更新一下密钥,如果没有安装archlinux-keyring,请及时安装sudo pacman-key --refresh-keys2.重新加载相应的签名密钥sudo pacman-key --initsudo pacman-key --populate3。清除pacman 的缓冲文件sudo pacman -Scc4.更新或者安装系统即可sudo pacman -Syu...

2019-12-16 14:15:18 557

原创 大坨更新

andrew@manjaro ~/Desktop/Desktop % sudo pacman -Syu --overwrite=/usr/lib/libnv_vulkan_wrapper.so.1,/usr/lib/libprimus_vk.so.1 ...

2019-12-15 23:40:34 535

原创 mysql命令

– 启动MySQLnet start mysql– 创建Windows服务sc create mysql binPath= mysqld_bin_path(注意:等号与值之间有空格)连接与断开服务器mysql -h 地址 -P 端口 -u 用户名 -p 密码SHOW PROCESSLIST – 显示哪些线程正在运行SHOW VARIABLES – 显示系统变量信息数据库操作– 查...

2019-12-15 22:55:49 69

原创 爬猫眼电影数据

猫眼的一些数据api影片:即将上映:http://api.maoyan.com/mmdb/movie/v2/list/rt/order/coming.json?ci=1&limit=12&token=热 映:http://api.maoyan.com/mmdb/movie/v5/list/hot.json?ci=1&limit=12&token=影...

2019-12-15 17:33:37 857

原创 pandas画时间序列图

import pandas as pdimport matplotlib.pyplot as pltimport numpy as np%matplotlib inline# 新建一个时间序列t_range = pd.date_range('2016-01-01', '2016-12-31', freq='H')t_range# DatetimeIndex(['2016-01-01...

2019-12-15 16:12:35 2553

原创 python一行代码的威力

from datetime import datetimed['上映时间'] = d.releaseTime.apply(lambda x:datetime.strptime(x,"%Y-%m-%d"))

2019-12-15 14:43:06 87

原创 cp: /usr/bin/chromedriver: Operation not permitted

Mac os安装chromedriver碰到的问题我想把从官网下载的文件chromedriver从下载文件夹转移到/usr/bin目录下终端输入:appledeMBP:~ apple$ cd ~/Downloads/appledeMBP:Downloads apple$ sudo mv chromedriver /usr/binPassword:mv: rename chromedr...

2019-12-15 14:28:12 2622

原创 linux find命令

Linux find命令用来在指定目录下查找文件。任何位于参数之前的字符串都将被视为欲查找的目录名。如果使用该命令时,不设置任何参数,则find命令将在当前目录下查找子目录与文件。并且将查找到的子目录和文件全部进行显示。语法find path -option [ -print ] [ -exec -ok command ] {} ;参数说明 :find 根据...

2019-12-15 13:42:50 59

原创 解决ssh经常掉线不稳定的情况

在服务端的ssh 配置文件加上这样几句话。vim /etc/ssh/sshd_config找到下面两行ClientAliveInterval 0ClientAliveCountMax 3去掉注释,改成ClientAliveInterval 30ClientAliveCountMax 86400这两行的意思分别是1、客户端每隔多少秒向服务发送一个心跳数据2、客户端多少秒...

2019-12-15 10:34:40 3190

原创 python生成一段时间

import pandas as pddate=pd.date_range('2011/1/1','2019/12/13', freq='D')

2019-12-13 21:52:25 293

原创 linux统计文件的个数

ls | wc -w这个查看目录下多少个字节数ls | wc -c统计某文件夹下文件的个数ls -l |grep “^-”|wc -l统计某文件夹下目录的个数ls -l |grep “^d”|wc -l统计文件夹下文件的个数,包括子文件夹里的ls -lR|grep “^-”|wc -l...

2019-12-13 16:03:42 94

原创 python获取列表中前N大的索引

其实这个功能自己写很容易,不过有有系统自带的库,这不是很爽。使用numpy中argsort函数。## 获取numn数组中的N个最大值的索引?import numpy as nparr = np.array([1, 3, 2, 4, 5])arr.argsort()[-3:][::-1]返回结果如下:Out[3]: array([4, 3, 1])...

2019-12-12 15:06:57 4963 1

原创 pandas fillna详解

pandas中补全nan具体的参数Series.fillna(self, value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)[source]参数: value : scalar, dict, Series, or DataFrameValue to use t...

2019-12-12 11:00:02 3804

原创 python Counter类

import collectionsobj = collections.Counter('aabbccc')print(obj)#输出:Counter({'c': 3, 'a': 2, 'b': 2})elements()import collectionsobj = collections.Counter('aabbccc')print(sorted(obj.elements...

2019-12-11 11:07:15 102

原创 crontab定时任务

Linux配置定时任务,大家都知道使用crontab这个系统功能,但有时候我们需要区分用户执行,下面就直接说一下2种方法的区别:方法1:使用命令 crontab -e 然后直接编辑定时脚本。这样执行以后,属于用户自定义的,会被写到 /var/spool/cron 目录下,生成一个和用户名一致的文件,文件内容就是我们编辑的定时脚本。[root@localhost cron.d]# cd /v...

2019-12-10 23:49:09 95

原创 tinyproxy代理

Tinyproxy 是一个轻量级的开源 web 代理守护进程,其设计目标是快而小。它适用于需要完整 HTTP 代理特性,但系统资源又不足以运行大型代理的场景,比如嵌入式部署。Tinyproxy 对小规模网络非常有用,这样的场合下大型代理会使系统资源紧张,或有安全风险。Tinyproxy 的一个关键特性是其缓冲连接的理念。从效果上看, Tinyproxy 对服务器的响应进行了高速缓冲,然后按照客户...

2019-12-10 01:06:17 1964

原创 python datetime模块

一、datetime模块介绍(一)、datetime模块中包含如下类:类名 功能说明date 日期对象,常用的属性有year, month, daytime 时间对象datetime 日期时间对象,常用的属性有hour, minute, second, microseconddatetime_CAPI 日期时间对象C语言接口timedelta 时间间隔,即两个时间点之间的长度tzi...

2019-12-10 00:46:36 163

原创 python判断字符串是否是数字字母

str.isnumeric(): True if 只包含数字;otherwise False。注意:此函数只能用于unicode stringstr.isdigit(): True if 只包含数字;otherwise False。str.isalpha():True if 只包含字母;otherwise False。str.isalnum():True if 只包含字母或者数字;ot...

2019-12-09 21:10:14 191

原创 scp命令

不同的Linux之间copy文件常用有3种方法:第一种就是ftp,也就是其中一台Linux安装ftp Server,这样可以另外一台使用ftp的client程序来进行文件的copy。第二种方法就是采用samba服务,类似Windows文件copy 的方式来操作,比较简洁方便。第三种就是利用scp命令来进行文件复制。下面来介绍一下scp的复制查看scp帮助:sup -h输出信息如下:u...

2019-12-09 20:39:06 213

原创 scp断点续传

scp 是通过ssh协议传输数据,如果是想传输一个很大的数据,这几天我就遇到过,一个tar包,400G左右,通过scp拷贝时,有可能遇到服务器断电什么的悲剧问题,那么类似scp拷贝的另一个命令 rsync就可以实现意外中断后,下次继续传,命令如下:rsync -P --rsh=ssh home.tar 192.168.205.34:/home/home.tar## -P: 是包含了 “–pa...

2019-12-09 20:35:14 553

原创 爬拉钩

# -*-coding:utf-8-*-import csvimport jsonimport requestsimport sys#获取json数据def get_json_data(city,position,page): #请求拉勾的职位查询接口,返回的是json格式数据 url = 'https://www.lagou.com/jobs/positionAj...

2019-12-09 14:58:51 105

mac_lagou.ipynb

拉钩爬取程序拉钩爬取程序

2019-12-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除