自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(43)
  • 资源 (3)
  • 收藏
  • 关注

原创 使用selenium解析本地HTML文件方法

import requestsimport time"""经验总结:1.使用selenium解析本地HTML文件方法,browser.get("file://C:/Users/23242/Desktop/HTML/People List _ USDA ARS.html")file://很重要不能少;2.(.text)获取不到时,换成.get_attribute("textConten...

2019-11-07 15:53:21 2735

原创 从Excel文件中读取链接下载图片

#读取链接,下载图片#获取csv文件的链接,下载图片,保存import xlrdimport osimport urllib.requestdef extract(inpath): data=xlrd.open_workbook(inpath,encoding_override='utf-8') table=data.sheets()[0]#选定表 nrows...

2019-10-08 16:40:22 1270

原创 pip install tesserocr 报错

看这个文章,前期安装对tesseract 这是链接,https://digi.bib.uni-mannheim.de/tesseract/安装完报错,再看这篇文章,把文件复制到https://blog.csdn.net/moxiao1995071310/article/details/82630996...

2019-08-29 18:50:40 209

原创 Python 保存完整网页#win32+selenium

__author__ = '***'#win32+selenium 实现保存网页from selenium import webdriverimport win32apiimport win32clipboardimport win32confrom ctypes import *import timeimport os#在浏览器打开百度网页browser=webdriver....

2019-08-15 14:56:22 1182

原创 Python 使用win32 保存成  mhtml

from selenium import webdriverimport timeimport win32apiimport win32con#测试网址news_url="自定义一个url吧"#打开另存为mhtml功能options=webdriver.ChromeOptions()options.add_argument('--save-page-as-mhtml')#设置c...

2019-08-15 14:54:26 1587 1

原创 pandas 读取文件夹下所有文件,数据转置,写出

__author__ = '****'import pandas as pdimport osdef file_name(file_dir): for root,dirs,files in os.walk(file_dir): for file in files: if os.path.splitext(file)[1]=='.csv':...

2019-08-15 14:32:38 3370

转载 线性回归 最大似然估计及二乘法

作者:知乎用户链接:https://www.zhihu.com/question/20447622/answer/23848605来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。最大似然估计:现在已经拿到了很多个样本(你的数据集中所有因变量),这些样本值已经实现,最大似然估计就是去找到那个(组)参数估计值,使得前面已经实现的样本值发生概率最大。因为你手头...

2019-07-28 15:11:59 1813

原创 XPath里面几种定位不到数据的解决办法

1.缩短定位路径,利用属性定位,比序列定位好像好用一些;2.tbody 标签是个坑,去掉它;3.查看获取的HTML源码中有没有想要的数据,有的是获取不到的,;4.学习一下正则表达式,配合使用;...

2019-07-28 15:11:19 11714 3

原创 使用 python3.6 时安装好 lxml 时按照许多网上的教程来引入会发现 etree 没被引入进来

使用 python3.6 时安装好 lxml 时按照许多网上的教程来引入会发现 etree 没被引入进来解决办法:import lxml.htmletree = lxml.html.etree这样就可以使用 etree 了,亲测有效,如果总觉得后期xpath,定位不到数据,不用怀疑是etree的问题,相信我,是你自己的问题。...

2019-07-28 15:08:31 434

原创 Python正则练习

__author__ = '***'import reprint(re.match('www','www.runoob.com'))print(re.match('www','www.runoob.com').span())print(re.match('com','www.runoob.com'))line="Cats are smarter than dogs"# #.* 表示任...

2019-07-28 15:07:50 164

原创 requests+lxml 爬虫练习

import requestsimport lxml.htmletree=lxml.html.etreeimport codecsdef get_info_list(url): html=requests.get(url).content # print(html) sel=etree.HTML(html) title_li=sel.xpath('//...

2019-07-23 17:29:48 378

转载 如何搜索国外上市企业的财务数据以及年报

原文链接:https://segmentfault.com/a/1190000010843711方法一1.先上雪球:https://xueqiu.com/输入中文名称“好未来”,得到股票代码:TAL;(点我直达)2.然后在必应搜索上输入:TAL site:www.morningstar.com/stocks,进入第一个网址;(点我直达)3.点击Financials得...

2019-07-09 10:51:54 8209 1

原创 # 比较filter,map,reduce

#coding:utf-8__author__ = 'kx'# 比较filter,map,reducea=lambda x:x**2listTest=[12,29,22,17,23,8]b=filter(a,listTest)print(b)#测试一个函数为空的b1=filter(None,listTest)print(b1)#测试一个列表是字符串类型的def a1(s):

2017-10-24 20:14:29 181

转载 Python中的join()函数的用法

Python中的join()函数的用法http://www.cnblogs.com/jsplyy/p/5634640.html函数:string.join()Python中有join()和os.path.join()两个函数,具体作用如下:    join():    连接字符串数组。将字符串、元组、列表中的元素以指定的字符(分隔符)连接生成一个新的字符串    o

2017-10-23 10:16:36 335

转载 数据挖掘系列(四)聚类算法评价指标

一、Not Given Label:1、Compactness(紧密性)(CP)      CP计算 每一个类  各点到聚类中心的平均距离      CP越低意味着类内聚类距离越近      缺点:没有考虑类间效果2、Separation(间隔性)(SP)      SP计算 各聚类中心两两之间平均距离 

2017-07-30 14:50:08 2628

转载 Python静态检查工具

Python是一门动态语言。在给python传参数的时候并没 有严格的类型限制。写python程序的时候,发现错误经常只能在执行的时候发现。有一些 错误由于隐藏的比较深,只有特定逻辑才会触发,往往导致需要花很多时间才能将语法错误慢慢排查出来。其实有一些错误是很明显的,假如能在写程序的时候发现这些错误,就能提高工作效率。注:习惯了C/C++等编译语言,使用像Python这种动态语言,总有点不

2017-07-29 10:51:20 1405

转载 python中xrange和range的异同

range    函数说明:range([start,] stop[, step]),根据start与stop指定的范围以及step设定的步长,生成一个序列。range示例:  >>> range(5) [0, 1, 2, 3, 4] >>> range(1,5) [1, 2, 3, 4] >>> range(0,6,2)[0, 2, 4]xrange   

2017-07-29 10:24:32 203

转载 scipy中的包及其作用

scipy有多个子包组成子包名描述cluster聚类算法constants物理和数学上的一些常量fftpack快速傅立叶变化integrate集成和常微分方程的求解interpolate插值和平滑样条函数io输入和输出

2017-07-28 21:43:45 892

转载 关于Python的面试题

Python语言特性1 Python的函数参数传递看两个例子:a = 1def fun(a): a = 2fun(a)print a # 1a = []def fun(a): a.append(1)fun(a)print a # [1]所有的变量都可以理解是内存中一个对象的“引用”,或者,也可以看似c中void*的感觉。这里记住的是类型是属于

2017-07-28 17:05:23 612

转载 PYTHON 一些基础面试题目总结

1.       Python是如何进行内存管理的?答:从三个方面来说,一对象的引用计数机制,二垃圾回收机制,三内存池机制一、对象的引用计数机制Python内部使用引用计数,来保持追踪内存中的对象,所有对象都有引用计数。引用计数增加的情况:1,一个对象分配一个新名称2,将其放入一个容器中(如列表、元组或字典)引用计数减少的情况:1,使

2017-07-28 17:01:03 268

转载 python数据分析师面试题选

python数据分析部分1. 如何利用SciKit包训练一个简单的线性回归模型利用linear_model.LinearRegression()函数 # Create linear regression objectregr = linear_model.LinearRegression()# Train the model using the training set

2017-07-28 16:58:40 1275

转载 Linux netstat命令详解

简介Netstat 命令用于显示各种网络相关信息,如网络连接,路由表,接口状态 (Interface Statistics),masquerade 连接,多播成员 (Multicast Memberships) 等等。输出信息含义执行netstat后,其输出结果为Active Internet connections (w/o servers)Proto Re

2017-07-28 15:40:36 180

转载 Linux经典面试题及答案

一.填空题:1. 在Linux系统中,以 文件 方式访问设备 。2. linux内核引导时,从文件 /etc/fstab 中读取要加载的文件系统。3. Linux文件系统中每个文件用 i节点 来标识。4. 全部磁盘块由四个部分组成,分别为引导块 、专用块 、 i节点表块 和数据存储块。5. 链接分为: 硬链接 和 符号链接 。6. 超级块包含了i节点表 和 空闲块表 等重要

2017-07-28 15:39:59 721

转载 常见linux笔试题-100道选择题-(答案见最后)

Linux认证 笔试 基本题(答案见最后)(以下均为单选题)1. cron 后台常驻程序 (daemon) 用于: A. 负责文件在网络中的共享 B. 管理打印子系统C. 跟踪管理系统信息和错误 D. 管理系统日常任务的调度2. 在大多数Linux发行版本中,以下哪个属于块设备 (block devices) ? A. 串行口B. 硬盘

2017-07-28 15:39:17 2599

转载 数据挖掘系列(3)--关联规则评价

前面我们讨论的关联规则都是用支持度和自信度来评价的,如果一个规则的自信度高,我们就说它是一条强规则,但是自信度和支持度有时候并不能度量规则的实际意义和业务关注的兴趣点。一个误导我们的强规则     看这样一个例子,我们分析一个购物篮数据中购买游戏光碟和购买影片光碟之间的关联关系。交易数据集共有10,000条记录,其中购买6000条包含游戏光碟,7500条包含影片光碟,4000条既包

2017-07-27 15:11:35 1190

转载 数据挖掘系列(2)--关联规则FpGrowth算法

上一篇介绍了关联规则挖掘的一些基本概念和经典的Apriori算法,Aprori算法利用频繁集的两个特性,过滤了很多无关的集合,效率提高不少,但是我们发现Apriori算法是一个候选消除算法,每一次消除都需要扫描一次所有数据记录,造成整个算法在面临大数据集时显得无能为力。今天我们介绍一个新的算法挖掘频繁项集,效率比Aprori算法高很多。  FpGrowth算法通过构造一个树结构来压缩数据记

2017-07-27 15:09:00 580

转载 数据挖掘(1):关联规则挖掘基本概念与Aprior算法

原文出处: fengfenggirl(@也爱数据挖掘)   我计划整理数据挖掘的基本概念和算法,包括关联规则挖掘、分类、聚类的常用算法,敬请期待。今天讲的是关联规则挖掘的最基本的知识。关联规则挖掘在电商、零售、大气物理、生物医学已经有了广泛的应用,本篇文章将介绍一些基本知识和Aprori算法。啤酒与尿布的故事已经成为了关联规则挖掘的经典案例,还有人专门出了一本书《啤

2017-07-27 14:20:24 486

原创 机器学习基本概念心得笔记(一)

1. 基本概念:训练集,测试集,特征值,监督学习,非监督学习,半监督学习,分类,回归2. 概念学习:人类学习概念:鸟,车,计算机    定义:概念学习是指从有关某个布尔函数的输入输出训练样例中推断出该布尔函数 概念定义在实例(instance)集合之上,这个集合表示为X。(X:所有可能的日子,每个日子的值由 天气,温度,湿度,风力,水温,预

2017-07-06 21:43:48 344

转载 最小二乘法

一.背景   5月9号到北大去听hulu的讲座《推荐系统和计算广告在视频行业应用》,想到能见到传说中的项亮大神,特地拿了本《推荐系统实践》求签名。讲座开始,主讲人先问了下哪些同学有机器学习的背景,我恬不知耻的毅然举手,真是惭愧。后来主讲人在讲座中提到了最小二乘法,说这个是机器学习最基础的算法。神马,最基础,我咋不知道呢! 看来以后还是要对自己有清晰认识。   回来赶紧上百度,搜了下什么

2017-06-27 16:23:37 248

转载 numpy的random模块

原文来自http://www.mamicode.com/info-detail-507676.html标签:【说明】翻译自官网的文档。 随机抽样 (numpy.random)简单的随机数据rand(d0, d1, ..., dn)随机值>>> np.random.rand(3,2)array([[

2017-05-25 10:51:42 254

原创 Python从Excel中读取日期一列

import xlrdimport datetimefile=u"伏特加.xls"#注意读中文文件名稍微处理一下data=xlrd.open_workbook(file)table = data.sheet_by_index(0)#按照索引读Excel文件colContent=table.col_values(1)#读某一列,日期在第二列nrows=table.nrows #行数p

2017-05-16 20:37:04 5602

原创 Python读取Excel文件遇到的编码问题(pycharm)

1.读取中文文件名,出现错误2.控制台输出中文乱码3.decode和encode4.UnicodeDecodeError: 'utf8' codec can't decode bytes in position 0-1: invalid data错误

2017-05-16 20:06:06 15739

原创 Excel常用小技巧

1.excel中统计某一列大于某个数的个数?2.Excel 求和,sum函数3.Excel连续选中大量相4.Excel连续赋值5.Excel更改日期格式6.Excel删除某些行7.Excel计算两个日期之间的相差天数

2017-05-16 19:22:58 312

转载 编码和字符串

字符编码我们已经讲过了,字符串也是一种数据类型,但是,字符串比较特殊的是还有一个编码问题。因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特(bit)作为一个字节(byte),所以,一个字节能表示的最大的整数就是255(二进制11111111=十进制255),如果要表示更大的整数,就必须用更多的字节。比如两个字节可以表示的最大

2017-05-16 14:22:23 232

原创 Sending a Letter

Great work!Now let's write a get_letter_gradefunction that takes a number score as input and returns a string with the letter grade that that student should receive.lloyd = {    "name": "Lloyd

2017-05-12 21:48:12 553

原创 读取TXT文件中的最后一个数据

import csvimport sysimport jsonreload(sys)sys.setdefaultencoding( "utf-8" )filename="AmazonRaisinResult.txt"with open (filename,"rb")as f: votes=[] #将txt文件读进来,这种评论数据不同于数值型数据 for rev

2017-05-10 16:51:14 1114

原创 如何在python中倒序遍历数组

num = [5,9,10,23,89]for i in range(0, num.__len__())[::-1]: print num[i]

2017-05-09 15:11:30 16583

转载 Python读写exce文件

本文转自python操作Excel读写--使用xlrd一、安装xlrd模块   到python官网下载http://pypi.python.org/pypi/xlrd模块安装,前提是已经安装了python 环境。二、使用介绍  1、导入模块      import xlrd   2、打开Excel文件读取数据       data = xlrd.open_workbook('excelFile.x

2017-05-07 19:08:19 325

转载 【[R] 【教程】教你如何读懂线性回归lm的结果summary(判断显著性)[转]】

教你如何读懂线性回归lm的结果summary(判断显著性)

2017-05-06 22:22:06 4230 1

原创 小问题积累

sample(x,size,replace=F)x可以是任何​对象,size规定了从对象中抽出多少个数,size应该小于x的规模,否则会报错replace默认是F,表示每次​抽取后的数就不能在下一次被抽取;T表示抽取过的数可以继续拿来被抽取

2017-05-05 21:27:49 282

Python编程:从入门到实践源代码文件

Python编程:从入门到实践源代码文件

2017-05-07

利用Python进行数据分析-源代码-数据

利用Python进行数据分析-源代码-数据

2017-05-07

情感词典库

台湾大学NTUSD - 简体中文情感极性词典以及知网HowNetsentiment

2016-10-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除