python
分子美食家
机器学习爱好者
展开
-
redis python zset
conn=redis.StrictRedis(host=‘192.168.80.41’,port=6379,db=0)conn.zadd(‘znames’,100,‘jiang’)conn.zadd(‘znames’,20,‘wolson’)#向有顺集合中增加一个元素jiang、它的分值为100 print(conn.zscore('znames','jiang')) #获取jiang这个元素的分值 print(conn.zrange('znames',0,-1,de原创 2021-02-09 14:10:19 · 342 阅读 · 0 评论 -
pykafka consumer
from pykafka import KafkaClientclient = KafkaClient(hosts="localhost:9092")topic = client.topics['maoyan_wish']consumer = topic.get_simple_consumer(consumer_group='test', auto_commit_enable=True, consumer_id='test')for message in consumer: if messa原创 2020-09-27 15:27:37 · 342 阅读 · 0 评论 -
python kafka 生产
from pykafka import KafkaClientclass KafkaProduct(): def __init__(self,hosts,topic): """ 初始化实例 :param hosts: 连接地址 :param topic: """ self.__client = KafkaClient(hosts=hosts) self.__topic = self原创 2020-09-27 15:21:51 · 140 阅读 · 0 评论 -
date string 转化为weekday
def transform_date_to_weekday(date_str): day = datetime.datetime.strptime(date_str,"%Y%m%d") weekday = datetime.datetime.isoweekday(day) return weekday原创 2020-09-27 10:27:10 · 250 阅读 · 0 评论 -
python logger
python——logger模块import logging#常用日志模块#Logger:即 Logger Main Class,是我们进行日志记录时创建的对象,我们可以调用它的方法传入日志模板和信息,来生成一条条日志记录,称作 Log Record。# Log Record:就代指生成的一条条日志记录。# Handler:即用来处理日志记录的类,它可以将 Log Record 输出到我们指定的日志位置和存储形式等,如我们可以指定将日志通过 FTP 协议记录到远程的服务器上,Handler 就会原创 2020-06-01 10:26:24 · 312 阅读 · 0 评论 -
python date api
In [11]: import pandas as pd In [12]: pd.date_range(start='20170101',end='20170110')Out[12]:DatetimeIndex(['2017-01-01', '2017-01-02', '2017-01-03', '2017-01-04', '2017-01-05', '201...原创 2020-01-09 10:47:25 · 207 阅读 · 0 评论 -
archlinux安装chrome-webdriver
pacman官方链接里面没有google-chrome的安装包,不过这怎么能难过archLinux的用户,在aur用户里面有chrome的安装包,第一步安装trizen。trizen的github链接安装trizengit clone https://aur.archlinux.org/trizen.gitcd trizenmakepkg -si安装chrome–trizen -...原创 2019-12-24 16:24:20 · 2172 阅读 · 0 评论 -
Vscode 过滤.pyc文件
shift + command + p之后输入setting在工作目录中加入一下配置文件{ "files.exclude": { "**/.git": true, "**/.svn": true, "**/.hg": true, "**/*.pyc": true, "**/.DS_Store": true...原创 2019-12-24 16:09:19 · 815 阅读 · 0 评论 -
抓豆瓣的电影评论数据
# -*- coding:utf-8 -*-'''抓取豆瓣电影某部电影的评论这里以《我不是潘金莲为例》网址链接:https://movie.douban.com/subject/26630781/comments为了抓取全部评论需要先进行登录'''pythonfrom selenium import webdriverimport timeimport codecsimport...原创 2019-12-24 16:07:22 · 882 阅读 · 0 评论 -
webdriver Google-chrome crashed
解决webdriver中报错。raise exception_class(message, screen, stacktrace)selenium.common.exceptions.WebDriverException: Message: unknown error: Chrome failed to start: exited abnormally (unknown error: De...原创 2019-12-24 16:03:35 · 464 阅读 · 0 评论 -
python文件读写
# encoding:utf-8# 文件读取操作fp=open("/Users/andrew/Dedesktop/file.txt","r",encoding="utf-8" )data_read=fp.read()#一次性全部读完fp.seek(0,0)#游标移动到第一行,继续读,否则读取到的是空data_readlines=fp.readlines()fp.close()prin...原创 2019-12-24 15:58:30 · 306 阅读 · 0 评论 -
sklearn gridcv
cv_params = {'gamma':[0.1,0.2,0.3,0.4,0.5,0.6], 'max_depth': [12,14,16,18,20,23,25,30,50], 'eta': [0.007,0.008,0.009,0.1,0.1], 'subsample': [0.7,0.9,0.3,0.2,0.4,0...原创 2019-12-24 15:55:18 · 377 阅读 · 0 评论 -
切换pip源为清华
pypi 镜像使用帮助pypi 镜像每 5 分钟同步一次。临时使用pip install -i https://pypi.tuna.tsinghua.edu.cn/simple some-package注意,simple 不能少, 是 https 而不是 http设为默认升级 pip 到最新的版本 (>=10.0.0) 后进行配置:pip install pip -Upip ...原创 2019-12-24 10:31:37 · 452 阅读 · 0 评论 -
sklearn API快速上手
传统的机器学习任务从开始到建模的一般流程是:获取数据 -> 数据预处理 -> 训练建模 -> 模型评估 -> 预测,分类。本文我们将依据传统机器学习的流程,看看在每一步流程中都有哪些常用的函数以及它们的用法是怎么样的。希望你看完这篇文章可以最为快速的开始你的学习任务。1. 获取数据1.1 导入sklearn数据集sklearn中包含了大量的优质的数据集,在你学习机器学...原创 2019-12-19 17:29:10 · 336 阅读 · 1 评论 -
xgboost进行分类具体实现
简单介绍:赛题来源是天池大数据的 “商场中精确定位用户所在店铺”。原数据有114万条,计算起来非常困难。为了让初学者有一个更好的学习体验,也更加基础,我将数据集缩小了之后放在这里,密码:ndfd。供大家下载。import pandas as pdimport xgboost as xgbfrom sklearn import preprocessing train = pd.rea...原创 2019-12-19 14:12:58 · 2055 阅读 · 0 评论 -
fastText文本分类cheatsheet
id: cheatsheettitle: CheatsheetWord representation learningIn order to learn word vectors do:$ ./fasttext skipgram -input data.txt -output modelObtaining word vectorsPrint word vectors for a t...原创 2019-12-19 11:42:45 · 324 阅读 · 0 评论 -
从零开始学习tensorflow2.0之熟悉tf2.0的数据
导入tensorflow2.0安装tensorflow2.0,使用pip安装,在jupyter notebook之中!pip install tensorflow!pip install tensorflow-gpuimport tensorflow as tfprint(tf.__version__)2.0.02.0.0tf中的常量x = tf.constant(rang...原创 2019-12-16 14:27:20 · 488 阅读 · 0 评论 -
爬猫眼电影数据
猫眼的一些数据api影片:即将上映:http://api.maoyan.com/mmdb/movie/v2/list/rt/order/coming.json?ci=1&limit=12&token=热 映:http://api.maoyan.com/mmdb/movie/v5/list/hot.json?ci=1&limit=12&token=影...原创 2019-12-15 17:33:37 · 1000 阅读 · 0 评论 -
pandas画时间序列图
import pandas as pdimport matplotlib.pyplot as pltimport numpy as np%matplotlib inline# 新建一个时间序列t_range = pd.date_range('2016-01-01', '2016-12-31', freq='H')t_range# DatetimeIndex(['2016-01-01...原创 2019-12-15 16:12:35 · 2600 阅读 · 0 评论 -
python一行代码的威力
from datetime import datetimed['上映时间'] = d.releaseTime.apply(lambda x:datetime.strptime(x,"%Y-%m-%d"))原创 2019-12-15 14:43:06 · 92 阅读 · 0 评论 -
python生成一段时间
import pandas as pddate=pd.date_range('2011/1/1','2019/12/13', freq='D')原创 2019-12-13 21:52:25 · 307 阅读 · 0 评论 -
python获取列表中前N大的索引
其实这个功能自己写很容易,不过有有系统自带的库,这不是很爽。使用numpy中argsort函数。## 获取numn数组中的N个最大值的索引?import numpy as nparr = np.array([1, 3, 2, 4, 5])arr.argsort()[-3:][::-1]返回结果如下:Out[3]: array([4, 3, 1])...原创 2019-12-12 15:06:57 · 5155 阅读 · 1 评论 -
pandas fillna详解
pandas中补全nan具体的参数Series.fillna(self, value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)[source]参数: value : scalar, dict, Series, or DataFrameValue to use t...原创 2019-12-12 11:00:02 · 3915 阅读 · 0 评论 -
python Counter类
import collectionsobj = collections.Counter('aabbccc')print(obj)#输出:Counter({'c': 3, 'a': 2, 'b': 2})elements()import collectionsobj = collections.Counter('aabbccc')print(sorted(obj.elements...原创 2019-12-11 11:07:15 · 116 阅读 · 0 评论 -
tinyproxy代理
Tinyproxy 是一个轻量级的开源 web 代理守护进程,其设计目标是快而小。它适用于需要完整 HTTP 代理特性,但系统资源又不足以运行大型代理的场景,比如嵌入式部署。Tinyproxy 对小规模网络非常有用,这样的场合下大型代理会使系统资源紧张,或有安全风险。Tinyproxy 的一个关键特性是其缓冲连接的理念。从效果上看, Tinyproxy 对服务器的响应进行了高速缓冲,然后按照客户...原创 2019-12-10 01:06:17 · 2133 阅读 · 0 评论 -
python datetime模块
一、datetime模块介绍(一)、datetime模块中包含如下类:类名 功能说明date 日期对象,常用的属性有year, month, daytime 时间对象datetime 日期时间对象,常用的属性有hour, minute, second, microseconddatetime_CAPI 日期时间对象C语言接口timedelta 时间间隔,即两个时间点之间的长度tzi...原创 2019-12-10 00:46:36 · 202 阅读 · 0 评论 -
python判断字符串是否是数字字母
str.isnumeric(): True if 只包含数字;otherwise False。注意:此函数只能用于unicode stringstr.isdigit(): True if 只包含数字;otherwise False。str.isalpha():True if 只包含字母;otherwise False。str.isalnum():True if 只包含字母或者数字;ot...原创 2019-12-09 21:10:14 · 211 阅读 · 0 评论 -
爬拉钩
# -*-coding:utf-8-*-import csvimport jsonimport requestsimport sys#获取json数据def get_json_data(city,position,page): #请求拉勾的职位查询接口,返回的是json格式数据 url = 'https://www.lagou.com/jobs/positionAj...原创 2019-12-09 14:58:51 · 116 阅读 · 0 评论 -
Mac解决中文matplotlib乱码问题
在Mac中用matplotlib画中文图像就是全是方块。分四步解决问题:第一步 下载相应字体放入matplotlib的字体库中SimHei.ttc查看matplotlib字体库的位置import matplotlibprint(matplotlib.matplotlib_fname())##得到下面的配置文件的位置/Users/alice/anaconda3/lib/pytho...原创 2019-12-09 12:03:30 · 419 阅读 · 2 评论 -
mac matplotlib 显示中文
from pylab import *import random%matplotlib inlinemyfont = matplotlib.font_manager.FontProperties(fname="/System/Library/Fonts/PingFang.ttc")mpl.rcParams['axes.unicode_minus'] = Falset = arange(...原创 2019-12-09 10:57:41 · 139 阅读 · 0 评论 -
pandas dropna
pandas删除空数据行及列dropna()import pandas as pd# 删除含有空数据的全部行df4 = pd.read_csv('4.csv', encoding='utf-8')df4 = df4.dropna()# 可以通过axis参数来删除含有空数据的全部列df4 = df4.dropna(axis=1)# 可以通过subset参数来删除在age...原创 2019-12-03 10:36:20 · 227 阅读 · 0 评论 -
python fun
import turtlet = turtle.Pen()for i in range(360): t.forward(i) t.left(59)原创 2019-12-02 20:55:29 · 355 阅读 · 0 评论 -
Mac安装brew
homebrew是Mac上非常好用的包管理工具,默认是没有安装的,安装很简单。ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"这位写出homebrew的老哥很厉害,不过数据结构与算法不好,在面试google的时候,反转一棵二叉树没有写出来。google回应,虽然...原创 2019-11-30 21:03:33 · 69 阅读 · 0 评论 -
python conda虚拟环境
anaconda是一个集成python的商业软件,曾经是一个很好用的conda管理包,但是最近有一点抽风,先是tuna,ustc等镜像源下架其软件,conda可以下载的包越来越少。不过conda virtua environment还可以,比如,一般在jupyter notebook中的kernel只有一个选项,在安装完conda的nb_conda和ipykernel包之后可以在kernel下面...原创 2019-11-30 20:52:59 · 294 阅读 · 0 评论 -
python虚拟环境
python的包管理不同于java,在日常中使用pip进行管理很方便,但是在实际项目中会发现使用系统自带的环境多有不便。可以在每新建一个项目的时候进行虚拟环境的建设,在项目发布的时候有比较好的依赖关系管理。使用virtualenv 进行虚拟环境以下基于python3,mac 10.15环境,linux类似pip3 install virtualenv --user若不加-- user可能...原创 2019-11-30 20:38:17 · 87 阅读 · 0 评论 -
leetcode004 Median_of_Two_Sorted_Arrays.py
"""给定两个大小为 m 和 n 的有序数组 nums1 和 nums2。请你找出这两个有序数组的中位数,并且要求算法的时间复杂度为 O(log(m + n))。你可以假设 nums1 和 nums2 不会同时为空。示例 1:nums1 = [1, 3]nums2 = [2]则中位数是 2.0示例 2:nums1 = [1, 2]nums2 = [3, 4]则中位...原创 2019-11-27 22:13:53 · 93 阅读 · 0 评论 -
leetcod003 Longest_Substring_Without_Repeating
"""给定一个字符串,请你找出其中不含有重复字符的 最长子串 的长度。示例 1:输入: "abcabcbb"输出: 3解释: 因为无重复字符的最长子串是 "abc",所以其长度为 3。示例 2:输入: "bbbbb"输出: 1解释: 因为无重复字符的最长子串是 "b",所以其长度为 1。示例 3:输入: "pwwkew"输出: 3解释: 因为无重复字符的最长子串是...原创 2019-11-27 22:04:46 · 97 阅读 · 0 评论 -
leetcode002 add_two_numbers
"""给出两个 非空 的链表用来表示两个非负的整数。其中,它们各自的位数是按照 逆序 的方式存储的,并且它们的每个节点只能存储 一位 数字。如果,我们将这两个数相加起来,则会返回一个新的链表来表示它们的和。您可以假设除了数字 0 之外,这两个数都不会以 0 开头。示例:输入:(2 -> 4 -> 3) + (5 -> 6 -> 4)输出:7 -> ...原创 2019-11-27 21:53:14 · 100 阅读 · 0 评论 -
leetcode001 two_Sum
"""给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的那 两个 整数,并返回他们的数组下标。你可以假设每种输入只会对应一个答案。但是,你不能重复利用这个数组中同样的元素。示例:给定 nums = [2, 7, 11, 15], target = 9因为 nums[0] + nums[1] = 2 + 7 = 9所以返回 [0, 1]""...原创 2019-11-27 21:51:55 · 81 阅读 · 0 评论 -
pandas groupby
#!/usr/bin/env python# coding: utf-8import numpy as npimport pandas as pd##导入数据movie_box_df = pd.read_csv('./result.csv',header = None)##查看前五列的信息movie_box_df.head()##重置列名movie_box_df.column...原创 2019-11-27 12:00:12 · 108 阅读 · 0 评论