Python语言
文章平均质量分 61
Analyst128
主要方向:数据可视化以及爬虫系列。微信:qingfxy28
展开
-
520表白——每天都是爱你的一天
# coding=utf-8 import turtlefrom datetime import * # 抬起画笔,向前运动一段距离放下def Skip(step): turtle.penup() turtle.forward(step) turtle.pendown() def mkHand(name, length): # 注册Turtle形状,建立表针Turtle turtle.reset() Skip(-length * 0.1.原创 2020-05-23 11:22:49 · 431 阅读 · 0 评论 -
KNN算法及其应用案例
1.常见的分类算法:(1).KNN算法(2).贝叶斯算法(3).决策树算法(4)人工神经网络算法(5)支持向量机(SVM)算法2.今天我们用KNN算法解决手写体数字的识别问题(包括验证码识别,二维码识别等都可以归属为同一类问题)KNN算法又名K-近邻算法,总体思想是:通过把现实中的数据映射到坐标系,然后通过计算"点"之间的距离(欧几里得公式)sqr[(x1-xm)**2+(y1-ym...原创 2018-08-20 22:27:01 · 11100 阅读 · 2 评论 -
决策树算法及其应用案例
决策树算法主要分为三类:ID3、C4.5、CART算法以ID3算法为例:对上表某图书销量进行预测.思考:建立测试模型,各个变量数据权重?数据的转化?重点在于:计算各个信息熵(数据预处理),可参考百度百科内容决策树算法模块:关注点:对数据需要进行预处理,转化为结构化数据,然后进行分析处理,信息熵的计算,权重大小的比较数据的预处理模块:#数据的处理模块fname="C:/Use...原创 2018-08-20 22:29:21 · 12386 阅读 · 2 评论 -
贝叶斯算法及其应用案例
贝叶斯分类算法:贝叶斯分类是统计学的一种分类算法,它是一类利用概率统计知识进行分类的算法。在许多场合,朴素贝叶斯(Naïve Bayes,NB)分类算法可以与决策树和神经网络分类算法相媲美。缺陷:与其本身的设定有关,由于贝叶斯假设一个属性值对给定类的影响独立于其它属性的值,但是该假设在实际情况中经常是不成立的,因此其分类准确率可能会下降。升级版:降低独立性假设的贝叶斯分类算法,如TAN(tre...原创 2018-08-20 22:27:56 · 9637 阅读 · 2 评论 -
数据分析在保险销售中的应用
从营销的角度看数据产生的价值。此部分报告是笔者曾经在新人班中,给新人做过的培训内容(产生一定的成效)。在此,作详细记录(考虑到部分敏感词汇,故而部分内容省略)。一、背景分析及问题提出1.背景分析2.问题提出二、用到的主要工具三、用户画像解读四、数据清洗1.用Excel对数据进行预处理2.查看是否存在缺失值 五、特征分析1.客户区域分布2.从手机号中提取运...原创 2018-08-31 16:36:19 · 8384 阅读 · 5 评论 -
爬虫打破封禁的几种方法
写在前面的话:爬虫有风险,使用需谨慎(应当遵守行业道德及职业操守,遵守国家法律法规。以下内容均是在此前提下进行操作)反爬技术基本有:模拟登陆,模拟浏览器,代理服务器......文章在持续更新总结梳理中......1.代理服务器的设置目的:防止自有IP地址被屏蔽推荐免费的代理服务器列表:http://www.xicidaili.com/ 建立自定义函数,利用代理服务器爬取网页内容...原创 2018-08-24 22:25:25 · 961 阅读 · 0 评论 -
数据分析岗位需求分析报告
1.前言2.用到的工具3.网页结构分析4.数据预处理5.数据分析岗位分布情况5.1公司的城市分布5.2公司的融资情况 5.3岗位福利状况 6.数据分析岗位的发展状况6.1各城市平均薪资待遇6.2不同融资阶段平均工资待遇7.数据分析师岗位招聘要求7.1统计量描述 7.2学历与职位需求7.3学历水平与工资7.4工作经验与职位需求7.5...原创 2018-09-05 18:09:09 · 15334 阅读 · 3 评论 -
抢票软件项目开发
项目需求分析整个项目应实现:浏览器自动登录12306网站,查询余票,车票预订,到自动提交系统支付的功能。具体包括:登录界面的cookie处理(保持登录界面)、登录时的验证码处理、余票查询、提交订单等部分。分析:借助工具fiddler,作为整个数据传输的记录环节。整个登录环节包括六个部分的验证才能实现。用到的模块:urllib.request:获取网页re:正则ssl:提供ht...原创 2018-09-12 19:38:24 · 12457 阅读 · 2 评论 -
网页爬取的三种方式
爬取的重点在于分析网页结构,以爬取淘宝网图片为例:爬取网页有三种方式:1.urllib.request2.封装Request请求3.urlretrieve直接写入硬盘下面以第三种方法爬取xxx图片代码如下:#爬取网页有三种方式:urllib.request,封装Request请求,urlretrieve直接写入硬盘,下面以第三种方法爬取xxx图片import urllib.r...原创 2018-09-10 20:13:44 · 3380 阅读 · 0 评论 -
多线程爬虫
关键词:多条路径,并行结构,同时进行正常情况下,爬虫程序都是有执行的先后顺序的,执行流程都在一条线上,即所谓的单线程爬虫。相对应的,如果爬虫中的某部分程序可以并行执行,即在多条线上执行,则这种执行结构称为多线程结构(这里的多线程和Java等语言中的类似),对应的爬虫也称为多线程爬虫,。代码解读如下:#AB线程同时运行,时间上会减少import threadingclass A(t...原创 2018-08-29 19:31:10 · 385 阅读 · 0 评论 -
安装Python中的Wordcloud(词云)的一点心得
Wordcloud(词云安装)正常cmd-->pip install wordcloud,结果出现下面安装失败的界面,最好的处理方法如下:第一:下载.whl文件http://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud找到对应的版本下载第二:下载路径:将下载文件直接自定义保存到pip所在的目录\c:\python34\sc...原创 2018-07-10 20:37:56 · 1544 阅读 · 0 评论 -
关于Python那些事
Python的火热,刺激了市场的需求,在国内某知名互联网招聘网站上,Python开发工程师的年薪普遍在25万-50万之间,岗位数量多达数万。如果你只能选读一门编程语言,那么除了 Python,还是 Python。要赶上这趟快车不容易,尤其是对于非专业出身的小白来说,面...转载 2018-07-17 13:03:33 · 1308 阅读 · 0 评论 -
Python数据分析学习笔记:学习路线
来自: http://www.jianshu.com/p/14017390e05b本文摘自同行说用户“风一样的男子”,原文链接:http://www.yidianzixun.com/n/0CAz84ve?s=1&appid=yidian,如涉及版权问题请及时联系小编!Python是一种面向对象、直译式计算机程序设计语言,由Guido van Rossum于1989年底发明。由于他简...转载 2018-07-05 15:18:23 · 395 阅读 · 0 评论 -
Python学习笔记:Python介绍
1.Python是一种什么样的语言?严格来说,Python是一门跨平台、开源、免费的解释型高级动态编程语言。其次,Python还支持编译将源代码转换为字节码来优化程序提高运行速度和对源代码进行保密。Python支持命令式编程、函数式编程,完全支持面向对象程序设计。2.学习Python语言的目的?正如"我从哪里来,要到哪里去,这是每个人都应该经常思考的问题,人生必须有个明确的、高大上的目标并...原创 2018-07-05 18:42:40 · 513 阅读 · 0 评论 -
Python学习笔记:变量、运算符与表达式
对象是Python最基本的概念之一。在Python中一切都是对象,常用的内置对象有:数字、字符串、列表、字典、元组、文件、集合、布尔型、空类型、编程单元(函数、类)。注1:不需要事先声明变量名及其类型,直接赋值即可,且变量类型可随时发生改变(系统自动识别和推断变量类型)(属于强类型编程语言,)。>>> x=5>>> x="hello world"&g...原创 2018-07-05 18:46:08 · 329 阅读 · 0 评论 -
Python数据结构:列表、元组、字典、集合
数据结构可以说是相互之间存在一种或者多种特定关系的数据类型的集合,相比于其他编程语言Python的数据结构更加灵活。Python中常用的序列结构有:列表、元组、字典、集合、字符串等。有序序列:列表、元组、字符串无序序列:字典、集合、(range、Zip、map、enumerate等)其中,列表、字典、集合又属于可变序列,其余属于不可变序列序列是Python中最基本的数据结构。列表元组字符...原创 2018-07-06 23:18:16 · 2232 阅读 · 0 评论 -
Python基本绘图案例
目录一、折线图二、柱状图 三、饼图bar四、直方图一、折线图#绘制折线图import matplotlib.pyplot as plt#绘制X轴对应的点x_values=[1,2,3,4,5]#每一个X点,对应的Y值squares=[1,4,9,16,25]#绘制图形plt.plot(x_values,squares,linewidth=5)#设置图表标题...原创 2018-07-22 23:36:53 · 2104 阅读 · 0 评论 -
Python数据预处理
1.导入数据文件(excel,csv,数据库文件等)df=read_table(file,names=[列名1,列名2,,,],sep="",encoding)#file是文件路径,names默认为文件的第一行为列名,sep为分隔符,默认为空,表示默认导入为一列#encoding设置文件编码,导入中文时,需设置utf-82.导出数据文件to_csv(filepath,sep="...原创 2018-08-14 23:43:00 · 9062 阅读 · 1 评论 -
XPath部分总结
关键词:网络采集数据,网页特定内容提取在网络爬虫中,对爬取到的数据进行筛选和提取的方式主要有两种:正则表达式和XPath,后者常用于scrapy框架中。定义:XPath是一种XML路径语言,通过该语言可以在XML文档中迅速地查询到相应的信息,XPath表达式通常叫做XPath selector。1."/" 表示从顶端开始寻找某个标签(多层标签的查找)以提取title标题为例:例如...原创 2018-08-29 19:34:09 · 321 阅读 · 0 评论 -
Python数据分析需要搭建的知识结构
随着大数据以及人工智能等热词的出现,Python现在已经逐步成为最受欢迎的动态编程语言之一,Python最大的特点是拥有一个巨大而活跃的科学计算社区。进入21世纪以来,在行业应用和学术研究中采用Python进行科学计算的势头越来越猛。 在数据分析和交互、探索性计算以及数据可视化方面,Python将不可避免地接近于其他开源和商业领域的特定编程语言/工具,如R、matlab、SAS、stata等。 ...转载 2018-07-09 23:20:54 · 891 阅读 · 0 评论