- 博客(35)
- 资源 (1)
- 问答 (1)
- 收藏
- 关注
原创 数据挖掘_利用协程抓取
协程,又称微线程,纤程。英文名Coroutine。协程的概念很早就提出来了,但直到最近几年才在某些语言(如Lua)中得到广泛应用。子程序,或者称为函数,在所有语言中都是层级调用,比如A调用B,B在执行过程中又调用了C,C执行完毕返回,B执行完毕返回,最后是A执行完毕。所以子程序调用是通过栈实现的,一个线程就是执行一个子程序。子程序调用总是一个入口,一次返回,调用顺序是明确的。而协程的调用和子程序不...
2018-05-05 11:16:58 249 1
原创 16_Python变量作用域_Python编程之路
之前跟大家已经讲了有关函数的一部分知识,但是忘了讲一个很重要的点,就是变量的作用域,这块知识不只是适用于函数,它试用域所有的Python程序在正式写程序之前,必须要清楚这一块,否则就很容易犯错误 首先理清一个概念,什么是变量变量可以我们可以将它看为指向值的名称,就像我们之前讲的字典一样的,只是这个字典你是看不到,当然这是很通俗的解释,但也离真相不远了在Python中有一个vars的内置函数,他可...
2018-05-02 09:41:06 143
原创 数据挖掘_多进程抓取
之前说过Python的多线程只能运行在一个单核上,也就是各线程是以并发的方式异步执行的这篇文章我们来聊聊Python多进程的方式 多进程依赖于所在机器的处理器个数,在多核机器上进行多进程编程时,各核上运行的进程之间是并行执行的,可以利用进程池,是每一个内核上运行一个进程,当翅中的进程数量大于内核总数时,待运行的进程会等待,直至其他进程运行完毕让出内核多进程就相当于下面这种卖票的行为 在这里要注...
2018-05-01 08:59:08 224
原创 数据挖掘_多线程抓取
在这一篇文章中,我们主要来介绍多线程抓取数据。 多线程是以并发的方式执行的,在这里要注意,Python的多线程程序只能运行在一个单核上以并发的方式运行,即便是多核的机器,所以说,使用多线程抓取可以极大地提高抓取效率 下面我们以requests为例介绍多线程抓取,然后在通过与单线程程序比较,体会多线程的效率的提高 这一次,我就不用我的网站做测试了,因为网站的内容此时还并不是太多,不能体现多线程的优势...
2018-04-30 10:47:02 373
原创 数据挖掘_并行并发介绍和同步异步介绍
前面跟大家讲的request s和spynner都是单进程(单线程)的顺序抓取,而并发和并行执行的异步抓取会极大地提高抓取效率。 并行和并发并发和并行使两个相似的概念,并发是指在一个时间段内发生若干事件的情况,并行是指在同一时刻发生若干事件的情况。我们可以以CPU的工作方式来说明这两个概念 单核CPU下,多任务操作系统的各任务是以并发的方式运行的,因为只有一个处理器,所以各任务会以分时的方式在一...
2018-04-28 14:41:35 342
原创 数据挖掘_requests模块的post方法
前面已经跟大家讲了requests模块的get方法,这一篇文章我们要介绍的是requests模块中的另一个比较常用的方法,post方法 post方法的形式相比于get要复杂一些,这时因为post在提交时需要提供一些数据信息,对于使用来说,两种方法基本差不多 请注意,查询字符串(名称/值对)是在 POST 请求的 HTTP 消息主体中发送的:下面我们通过一个例子简单了解一下post方法的使用 首先我...
2018-04-27 14:37:43 265
原创 15_Python模块化编程_Python编程之路
之前跟大家讲的是一些python的数据基础,从这篇文章开始,我们开始正式学习python的模块化编程 下面我们解释一下什么叫做模块之前已经讲过怎么去定义一个方法,如果你是用python交互器(自带交互器,或者是ipython)来学习定义方法的话,你定义完方法后,然后退出交互器,然后你再来使用这个方法,很显然,是不会成功调用的,这是因为python交互器在你退出后,会清空内存,所有定义的变量和方法...
2018-04-26 21:25:26 447
原创 数据挖掘_requests模块的get方法
关于requests模块之前在跟大家讲通过字典列表批量获取数据的时候用过这个模块安装过程就不再讲解了requests模块是python的http库,可以完成绝大部分与http应用相关的工作,所以我们可以用它来进行数据抓取工作requests模块有两个常用的方法,get 和 post 我们也主要只是围绕这两个方法来讲解requests模块 注意:requests不能模拟浏览器的全部行为 get方法在...
2018-04-26 14:13:48 372
原创 07_Linux目录文件操作命令4解压缩,文件查找_我的Linux之路
这一节还是一样学习操作目录文件的命令在这一节,我会讲到解压压缩tar以及zip命令,以及文本查找命令grep tar 打包压缩命令tar命令可以为linux的文件和目录创建档案首先要弄清两个概念:打包和压缩。打包是指将一大堆文件或目录变成一个总的文件;压缩则是将一个大的文件通过一些压缩算法变成一个小文件。为什么要区分这两个概念呢?这源于Linux中很多压缩程序只能针对一个文件进行压缩,这样当你想...
2018-04-25 22:00:09 141
原创 14_Python将列表作为栈和队列_Python编程之路
上一篇文章跟大家介绍了列表的一些方法,这一节我们还是讲列表只是这一节我们要联系一些数据结构,来讲列表 栈首先我们要理解一下栈是一种什么数据结构 栈(stack)又名堆栈,它是一种运算受限的线性表。其限制是仅允许在表的一端进行插入和删除运算。这一端被称为栈顶,相对地,把另一端称为栈底。向一个栈插入新元素又称作进栈、入栈或压栈,它是把新元素放到栈顶元素的上面,使之成为新的栈顶元素;从一个栈删除元素又称...
2018-04-25 08:02:50 207
原创 13_Python数据类型字符串加强_Python编程之路
前面已经跟大家讲了python的数据类型,但是没有深入去讲,这一节我们深入了解python数据类型的使用 列表数据类型有很多方法,我们在这里一一跟大家介绍 1.append方法append用于将一个对象附加到列表末尾。例如以下代码In [1]: my_list = [1, 2, 3, 4]In [2]: my_list.append(5)In [3]: my_listOut[3]: [1...
2018-04-23 23:06:06 110
原创 监督学习与无监督学习的区别_机器学习
最近发现很多人还是不能真正分清机器学习的学习方法,我以个人的愚见结合书本简单说一下这个 机器学习中,可以根据学习任务的不同,分为监督学习(Supervised Learning),无监督学习(Unsupervised Learning)、半监督学习(Semi-Supervised Learning)和强化学习(Reinforcement Learning). 监督学习和无监督学习是使用较多的两种...
2018-04-23 17:58:33 719
原创 12_Python的(匿名函数)Lambda表达式_Python编程之路
Python作为一门高级语言,与很多编程语言一样都具有匿名函数这一特征 匿名函数,也就Lambda表达式,通俗来讲就是不用命名的方法,直接定义,直接用即可创建匿名函数需要用到Lambda关键字,下面我们通过一个简单的匿名函数的创建熟悉匿名函数lambda a,b : a + b 这个表达式返回的值是a加上b的值,他需要传入两个参数,也就是a,b,同时还需要一个表达式,这样才能构成一个完整的匿名...
2018-04-23 14:23:13 200
原创 Python数据挖掘_Python2模块Spynner的安装(安装失败)
我们一起来学习如何使用Spynner进行数据抓取 单数据抓取机顾名思义就是单进程的数据抓取形式,通常在数据不是很多的时候被应用首先我们要介绍Spynner Spynner在抓取时可以出现一个浏览器,在浏览器中可以观察抓取过程的变化,Spynner还可以加载javascript生成的动态内容,然后抓取这部分的动态内容Spynner其他功能与requests模块基本相同,除了上面的功能时spynner...
2018-04-23 08:56:58 337
原创 06_Linux目录文件操作命令3查找命令_我的Linux之路
上几节已经大致跟大家说了在Linux端文件目录操作的一些命令这篇随笔,我们继续来学习对文件目录的操作命令 对文件或目录进行查找的命令 find 指定目录下查找文件find(选项)(参数) find命令可以用来在特定目录下查找文件,默认是需要加上查找的路径的,如果不加路径,则find命令会在当前目录查找子目录和文件然后把查找的文件或目录显示出来他的选项如下-amin<分钟>:查找在指定...
2018-04-21 22:41:25 131
原创 python数据挖掘_Json结构分析
json是一种轻量级的数据交换格式,也可以说是一种配置文件的格式这种格式的文件是我们在数据处理经常会遇到的python提供内置的模块json,只需要在使用前导入即可 你可以通过帮助函数查看json的帮助文档 json常用的方法有load、loads、dump以及dumps,这个都属于python初级,我不做过多解释json可以结合数据库一起使用,在这以后要处理大量数据时非常有用 下面我们正式来利...
2018-04-21 10:13:24 329
原创 11_Python的列表推导式_Python编程之路
上一节我们结束了有关python的方法相关内容 这一节我们先来学习python的列表推导式之前跟大家说过range方法的使用,在这里我就不做过多的解释了,如忘记了,请翻阅之前的介绍列表推导式,是Python内置的一种极其强大的生成list的表达式如果要生成一个list [1 , 2 , 3 , 4 , 5 , 6 , 7 , 8 ] 可以用 range(1 , 9):In [1]: list(ra...
2018-04-20 23:02:37 131
原创 Python数据抓取_BeautifulSoup模块的使用
在数据抓取的过程中,我们往往都需要对数据进行处理本篇文章我们主要来介绍python的HTML和XML的分析库BeautifulSoup BeautifulSoup 的官方文档网站如下https://www.crummy.com/software/BeautifulSoup/bs4/doc/ BeautifulSoup可以在HTML和XML的结构化文档中抽取出数据,而且还提供了各类方法,可以很方...
2018-04-19 16:09:00 340
原创 数据挖掘_通过字典列表批量抓取网页数据
在进行网页数据抓取时我们要先安装一个模块 requests通过终端安装如下图因为我之前安装过了,所以不会显示安装进度条,安装也非常简单,如果你配置好环境变量的话,你只需要执行以下命令pip install requests 如果提示要升级,就按下面升级pippip install --upgrade pip 安装完模块后我们正式开始进行数据爬取先说一下requests的用法,导入这个模块后,...
2018-04-19 08:18:06 783
原创 10_Python函数方法默认参数_Python编程之路
上节课已经简单的跟大家讲了如何定义一个方法,但是并没有深入去讲,这一节我们继续来学习定义方法中需要注意的几点 默认参数 前面我们讲到定义一个方法时是可以传递参数的,除了这个功能,实际上python在定义方法时还可以自己预先定义一些参数,这些参数一般被称为默认参数(Default Argument Value)参数赋值比如下面一个官方的例子def ask_ok(prompt, retries=4, ...
2018-04-18 21:11:27 221
原创 05_Linux目录文件操作命令2_我的Linux之路
这一节我们继续来学习Linux中对文件和目录的操作命令 mkdir 创建目录mkdir (选项)(参数)在Linux端可以使用mkdir来创建目录,如果你没有加其他的路径名,那么默认是在当前目录下创建目录,注意当文件夹存在时则提示不能创建在这里说一下创建文件夹其实和windowns管理一样,要规划好如何去布局一个文件系统,在父目录下可以再创建子目录,每个目录尽量要存放相同类型的文件,这样更易于团...
2018-04-09 22:53:36 112
原创 09_Python定义方法_Python编程之路
有关Python判断与循环的内容我们上几节已经跟大家一起学习了,这一节我们主要针对def 做一个讲解def 定义一个方法在项目编程中,我们往往要做很多重复的事,比如一个排序的功能(当然Python中内置排序的方法),在编程中,我们肯定是会多次用到这个功能的,如果我们每次都在要用这个功能时,都去写一遍,那实在是太影响编程效率了,这时我们就可以通过def去定义一个排序的方法,那么我们就可以在要使用的时...
2018-04-08 17:37:15 165
原创 08_Python的控制判断循环语句2(break、continue)_Python编程之路
上一节简单的讲了Python的判断语句,和循环语句,if , while ,for等这一节我们来深入了解循环内的一些语句 BreakPython中的break和其他语言都一样,可以跳出一个循环语句通常来讲,有的循环语句是可以有else的,如果一个循环被break终止了,则会执行else下面的语句比如通过嵌套for循环求一个范围内所有的质数(质数又称素数,大于1,除了1和自身,不能被其他数整除的数就...
2018-04-08 17:36:00 145
原创 07_Python的控制判断循环语句1(if判断for循环)_Python编程之路
Python的数据类型在前几节我们都简单的一一介绍了,接下来我们就要讲到Python的控制判断循环语句 在现实编程中,我们往往要利用计算机帮我们做大量重复计算的工作,在这样的情况下,需要机器能对某个条件进行判断,或是对某个行为进行重复操作这时我们就必须要知道如何去编写循环判断语句 if... elif... elseif也就是如果的意思,后面需要加一个判断条件,如果判断条件为真,则执行if下的操作...
2018-04-06 18:11:27 267
原创 04_Linux目录文件操作命令1(mv ls cd...)_我的Linux之路
上一节已经给大家讲了Linux的目录结构,相信大家已经对Linux的整个目录结构有所了解 现实中,服务器(包含Linux,Unix,windows server)一般都摆放在机房里,因为一个机房摆放了很多Linux机器,所有机器都运转起来,整个室内温度也是非常高的,所以作为一个要操作Linux的开发人员,它们通常都是通过ssh远程连接操作Linux的,而ssh只有命令行界面,所以我们操作Linux...
2018-04-05 15:58:13 197
原创 06_Python的数据类型3元组,集合和字典_Python编程之路
上一节跟大家讲了Python的列表,当然不是完整的讲完,后续我们还会提到,这一节我们还是来讲Python的数据类型首先要讲到的就是元组元组其实拥有列表的一些特性,可以存储不同类型的值,但在某些方面元组又比不上列表定义一个元组,你可以不用加‘ [ ] ’,你只需用逗号隔开即可例如In [1]: my_tuple = "susmote", 28, 123456789In [2]: my_tuple...
2018-04-04 18:50:41 136
原创 05_Python的数据类型2列表_Python编程之路
上一节课给大家讲了Python的数值和字符串在编写程序的过程中,经常会遇到使用很多数据量的情况,处理每一个数据量都要有一个相对应的变量,如果每一个变量都要单独进行定义则很繁琐,使用列表就可以解决这种问题Python的数值类型List,也就是列表Python的列表比较类似与其他语言的数组概念,但他又与其他语言数组的概念有很大的不同C语言、Java的数组定义是这样的,存储多个同类型的数值的集合就叫...
2018-04-03 21:25:33 92
原创 02_Linux的目录结构_我的Linux之路
前两节已经教大家怎么在虚拟机安装Linux系统这一节我们来学习Linux的目录结构,讲一下linux的整个系统架构,提前熟悉一下Linux 在Linux或Unix系统中有一个非常重要的概念,就是一切皆文件首先我们来熟悉一下Linux中各种颜色都是代表什么 蓝色代表的是目录例如根目录下的目录 青色颜色代表的是链接文件,或许也可以当作windows端的快捷方式 绿色代表的就是可执行文件 黄色...
2018-04-02 14:48:15 179
原创 04_Python的数据类型1数值和字符串_Python编程之路
上一节我们通过一个helloworld程序学习python的一些简单操作,还有输入与输出这节我们来讲Python的数据类型与变量的操作 Python的交互器在讲这个之前,我要先讲一下python的交互器,之后讲解代码(除了做简单项目)都在交互器上进行,这样可能比较直接一些,有利于刚接触python的人理解代码python在命令行自带一个交互器,我们可以直接通过输入python进入python的交互...
2018-04-01 11:31:43 177
原创 03-第一个脚本程序以及输入输出_Python编程之路
上节课已经教大家安装了Python的解释器,那么这节课我们就可以正式来写代码了说明:在下面的代码演示中,我将大部分使用python交互器演示代码的输入输出,注意“>>>”后面代表的是输入的代码,没有其他的标志代表的是输出按照以往的惯例,首先我们还是写一个Hello world 程序# -*- coding :utf-8 -*-#Author = susmoteprint("h...
2018-03-30 19:29:11 197
原创 01_搭建Linux虚拟机(下)_我的Linux之路
原文发布在特克斯博客www.susmote.com上一节已经给大家讲解了如何用VMware安装虚拟机,但是只讲了在VMware里面的操作接下来我们讲在Linux内部的安装步骤首先我们启动Linux会出现下面的安装选项各个选项的意思我不做过多解读,主要说第一个和第二个,第一个是讲安装或者升级存在的系统,第二个是安装基本设备驱动我们默认选择第一个,安装存在的系统之后回事一些执行命令的操作,命令执行完...
2018-03-29 14:17:42 151
原创 02-Python的下载和安装_Python编程之路
原文发布在特克斯博客www.susmote.com之前给大家讲了关于python的背景知识,还有Python的优点和缺点,相信通过之前的介绍很多人已经清楚自己到底要不要选择学习Python,如果已经很有兴趣了,那么你就可以自己查看一些有关Python的官方文档,或是买本书啃啃,如果你暂时还没什么兴趣,也不要着急放弃,尝试着多看几节课,如果实在没兴趣也实属正常,Python也不是最好的语言Pytho...
2018-03-28 21:24:37 188
原创 00_Linux介绍_我的Linux之路
原文章发布于特克斯博客www.susmote.com什么是操作系统操作系统(Operating System,简称OS)是管理和控制计算机硬件与软件资源的计算机程序,是直接运行在“裸机”上的最基本的系统软件,任何其他软件都必须在操作系统的支持下才能运行。从1946年第一台计算机诞生以来,操作系统就一直在不断的更新换代,在这个期间的系统按用户分类可以分为单用户操作系统(如MSDOS、OS/2.Win...
2018-03-27 21:47:12 223
原创 01_搭建Linux虚拟机(上)_我的Linux之路
原文章发布于特克斯博客www.susmote.com一般我们学习Linux都是搭建一个虚拟机环境,当然你也可以装一个Linux系统(配上windows做一个双系统主机),我个人认为初学者还是先选择搭建一个虚拟机来学习Linux(或者可以说是玩),在虚拟环境中,我们想干什么就干什么,玩坏了恢复快照就可以了,当然重装也用不了多久搭建虚拟机,目前有两个软件比较主流,一个是VMware Workstati...
2018-03-26 20:53:25 222 1
原创 01-Python的介绍_Python编程之路
原文章发布于特克斯博客www.susmote.com首先用一句业内非常出名的话来介绍Python“人生苦短,我用Python”这也是Python宣传时经常说的一句话从这句话中,可以非常清楚Python他到底优点在哪里,为什么要去学Pythonpython的发展历程Python是在1990年被吉多·范罗苏姆 (Guido van Rossum)创建发明,1989年的圣诞节期间,吉多·范罗苏姆为了在阿...
2018-03-25 11:07:26 1367 2
TA创建的收藏夹 TA关注的收藏夹
TA关注的人