自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 决策树算法入门实例: Titanic存活预测

from sklearn.tree import DecisionTreeClassifierimport pandas as pdfrom sklearn.feature_extraction import DictVectorizerfrom sklearn.model_selection import train_test_split从kaggle获取数据后,查看所有特征,这里只...

2018-12-24 20:27:26 437

原创 机器学习笔记

tf-idftf: term frequency 词的频率idf: inverse document frequency 逆文档频率 log(总文档数量/该词出现的文档数量)tf*idf = 重要性程度特征处理是什么: 通过特定的统计方法(数学方法)将数据转换成算法要求的数据数值型数据: 标准缩放: 1. 归一化 2. 标准化 3. 缺失值 并非所有算法都需要对数据处理类别型数据...

2018-12-20 20:18:23 99

原创 机器学习入门笔记

机器学习的数据来源: 文件CSV(主要)从历史数据中获取规律为什么不用mysql:1. 性能瓶颈,读取速度2. 格式不太符合机器学习要求的数据格式python中有强大的库: pandas,numpypython中有GIL锁导致python这门动态语言执行效率不高.机器学习的库都是基于numpy,而numpy释放了GIL锁,达成了真正的多线程并行GIL锁只存在于cpython解释器中...

2018-12-19 19:57:21 123

原创 pandas入门3

通过以下题目进行练习:现在有2015道2017年40万条911的紧急电话的数据,请统计出这些数据中不同类型的紧急情况的次数,如果我们还想统计出不同月份不同类型紧急电话的次数的变化情况,应该怎么做.导入模块import numpy as npimport pandas as pdfrom matplotlib import pyplot as plt首先概览数据信息,找到我们需要的信息...

2018-12-18 23:18:34 172

原创 pandas入门2

对于以下数据进行处理,索取genres字段的分类情况.原始数据为csv格式,部分数据如图所示:导入有关模块import pandas as pdimport numpy as npfrom matplotlib import pyplot as pltimport json导入数据,对整体数据有个概览dn = pd.read_csv('D:/data/tmdb_5000_mov...

2018-12-17 22:25:20 195

原创 pandas入门

pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。它是Python成为强大而高效的数据分析环境的重要因素之一首先导入pandasimport pandas as pdimport numpy as nppand...

2018-12-14 18:53:47 166

原创 numpy入门2

import numpy as npt1 = np.arange(200).reshape((10,20))简单了解下numpy中读取数据的方法pandas中有更为强大的方法,一般从csv文件中读取数据# 从文本文件中读取内容# fname路径# dtype数据类型# delimiter分隔字符串,默认空格. csv中使用,# skiprows跳过X行,一般跳过第一行表头# ...

2018-12-13 17:04:51 117

原创 numpy入门

NumPy系统是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表(nested list structure)结构要高效的多(该结构也可以用来表示矩阵(matrix))import numpy as npimport random# 使用numpy生成数组,得到array的类型t1 = np.array([1, 2, 3])prin...

2018-12-12 19:36:20 97

原创 matplotlib入门

以下题为例:假设同学1在30岁的时候,统计出来了从11岁到30岁每年交的女朋友数量如列表y1,请绘制出该数据的折线图,以便分析每年交女朋友的数量走势同学2每年交女朋友数量走势如y2,绘制折线图要求y轴表示个数,x轴表示岁数,比如11岁,12岁from matplotlib import pyplot as pltfrom matplotlib import font_manager...

2018-12-11 20:14:14 116

原创 python对象和数据结构

python变量和对象在python程序里,可以通过初始化(或提供实参)给变量约束一个值,还可以通过赋值修改变量的值.这里的值就是对象.给变量约束一个对象,就是把对象的表示(内存地址)存入该变量.所以从变量出发访问其值得是常量时间操作,这是在python里分析程序的时间代价的基础.Python变量的值都是对象,可以是基本整数,浮点数等类型的对象,也可以是组合类型的对象,比如list.程序中建立...

2018-12-10 17:35:49 275

原创 python中计算代价1

算法(Algorithm)是指解题方案的准确而完整的描述,是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制。也就是说,能够对一定规范的输入,在有限时间内获得所要求的输出。如果一个算法有缺陷,或不适合于某个问题,执行这个算法将不会解决这个问题。不同的算法可能用不同的时间、空间或效率来完成同样的任务。一个算法的优劣可以用空间复杂度与时间复杂度来衡量。渐近时间复杂度简称时间复杂...

2018-12-07 19:11:23 889

原创 django中验证码的简单实现

django中简单的验证码创建.from PIL import ImageFont, ImageDraw, Image # 采用rgb方式随机创建背景色 bgColor = (random.randrange(50,200 ), random.randrange(50, 200), 0) # 规定宽高 width = 100 ...

2018-12-06 19:25:07 502

原创 selenium学习历程1

初学selenium,尝试着爬取网易云.import osfrom selenium import webdriverclass yun_spider: def __init__(self): self.url = 'https://music.163.com/#/discover/playlist/' self.driver = webdrive...

2018-09-29 16:44:06 138

原创 爬虫学习,尝试爬取小说网站

初步学习了scrapy 尝试着爬取小说网站全部小说(发现没问题就停了)以下为scrapy中基础爬虫的写法# -*- coding: utf-8 -*-import scrapyfrom scrapy.shell import inspect_response #测试import refrom xiaoshuo.items import XiaoshuoItemclass Ba...

2018-09-20 18:48:17 386

原创 scrapy爬取诗词网

入门scrapy不久,尝试着写一段代码爬取诗词网. spider如下:class ShiciSpider(scrapy.Spider): name = 'shici' url = 'http://www.shicimingju.com/chaxun/zuozhe/44_' page = 1 start_urls = [url + str(page) +'.ht...

2018-09-16 20:58:08 444

原创 爬虫入门,尝试爬取百度贴吧

在看了鱼C论坛小甲鱼的视频后尝试着写了一段爬虫,发觉视频过去几年,有许多的方法不适用了.在咨询老师后得到一种更为简洁的方法:requestsmport requests #最新用requests包爬取网站import reheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit...

2018-09-12 16:04:23 312

原创 爬取有道翻译

入门学习了爬虫,尝试写一段爬取有道翻译的代码.import urllib.request as urimport urllib.parse as upimport chardetimport jsonstring = input('please enter the words needing to translate:')#在input()中用中文输入法提示会出现错误,有没有大佬懂...

2018-09-10 22:51:32 202

原创 爬虫入门

配合 EasyGui,在http://placekitten.com 给“下载一只猫“的代码增加互动: 让用户输入尺寸; 如果用户不输入尺寸,那么按默认宽400,高600下载喵;import easygui as eimport urllib.requestimport osmsg = '请填写喵的尺寸'title = '下载一只喵'fieldNames = ['宽:',...

2018-09-10 15:47:57 98

原创 用生成器求小于2000000的质数之和

用生成器求小于2000000的质数之和def is_prime(num): if num == 2: return True elif num > 2: for i in range(2,num): if num % i == 0: return False retur...

2018-09-08 12:35:44 305

原创 小游戏龟吃鱼

1. 游戏编程:按以下要求定义一个乌龟类和鱼类并尝试编写游戏。(初学者不一定可以完整实现,但请务必先自己动手,你会从中学习到很多知识的^_^)假设游戏场景为范围(x, y)为0<=x<=10,0<=y<=10游戏生成1只乌龟和10条鱼它们的移动方向均随机乌龟的最大移动能力是2(Ta可以随机选择1还是2移动),鱼儿的最大移动能力是1当移...

2018-09-08 10:35:10 534

原创 装饰器的简单运用

装饰器的运用:import timedef gettime(func): #计时,将整个函数prime代入 def wrapper(*args): #传入所有prime函数的参数 T1 = time.clock() result = func(*args) ...

2018-09-08 09:27:35 143

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除