自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(133)
  • 收藏
  • 关注

原创 爬虫知识3:seletors选择器、Xpath、 BeautifulSoup使用案例

本文主要介绍了Scrapy常用的数据提取的方法,包括seletors、scrapy shell、xpath、css、BeautifulSoup的使用方法及案例。只要掌握xpath或者css任意一种即可。1、seletors选择器1)介绍        Scrapy提取数据有自己的一套机制。它们被称作选择器(seletors),构建于lxml库之上,通过特定的XPath或者CSS表达式来等“选择”

2018-03-30 00:00:00 5079

原创 爬虫知识1:了解爬虫知识体系、安装Scrapy等模块

1、爬虫的知识介绍及相关概念    网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序...

2018-03-30 00:00:00 484

原创 爬虫知识3:seletors选择器、Xpath、 BeautifulSoup使用案例

   本文主要介绍了Scrapy常用的数据提取的方法,包括seletors、scrapy shell、xpath、css、BeautifulSoup的使用方法及案例。只要...

2018-03-30 00:00:00 651

原创 爬虫知识2:Scrapy框架介绍,建立第一个蜘蛛

1、Scrapy介绍:    Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。主要用来帮助你下载网页、解析网页、自定义一些模块。我们只需专注于提取数据...

2018-03-30 00:00:00 509

原创 爬虫知识4:Requests模块介绍

爬虫需要掌握的一些知识图谱:    如果不使用爬虫框架scrapy,也利用一些爬虫模块也可以自定义爬虫的过程,比如 Python标准库中提供的urllib、urllib2...

2018-03-30 00:00:00 364

原创 爬虫知识5:常见反爬虫机制——User-Agent和代理IP设置

常见反爬机制:1、拒绝非浏览器的访问:可以检查请求头header中的User-agent、referer、cookies:User-agent用来表示请求者的信息,可以搜...

2018-03-30 00:00:00 1636

原创 爬虫知识6:自动登录与cookies的应用

   普通请求使用scrapy.Request类就可以实现,但是遇到模拟表单或Ajax提交post请求的时候,Request类就不如子类FormRequest类方便了,因...

2018-03-30 00:00:00 233

原创 爬虫知识7:scrapy的settings配置文件中各参数解释以及如何自定义类

建立完爬虫项目之后,都会有如下的结构:其中,settings.py文件是存放配置文件用的,初始化的settings文件,只有以下四个变量是默认定义好的,其他都是注释掉的。...

2018-03-30 00:00:00 2602

原创 Python的Socket知识6:线程、线程锁、线程池、上下文管理

1、进程、线程     进程(process)是cpu资源分配的最小单位,线程(thread)是cpu调度的最小单位。多线程和多进程的应用目的是为了提高并发。一个应用程序可以包含多个进程,而一个进程又可以包含多个线程。默认一个应用程序是单进程、单线程。1)什么是进程(process)    进程:指在系统中能独立运行并作为资源分配的基本单位,它是由一组机器指令、数据和堆栈等组成的,是一个能独立运行

2018-02-19 00:00:00 2316 1

原创 Python的Socket知识7:队列、生产者消费者模型

1、队列      队列是一种数据结构,队列queue 多应用在多线程应用中,多线程访问共享变量。对于多线程而言,访问共享变量时,队列queue是线程安全的。从queue队列的具体实现中,可以看出queue使用了1个线程互斥锁(pthread.Lock()),以及3个条件标量(pthread.condition()),来保证了线程安全。主要的队列类型:先进先出(First in First Out

2018-02-19 00:00:00 692

原创 Python的Socket知识5:IO多路复用

IO 多路复用是5种I/O模型中的一种。1、同步vs异步,阻塞vs非阻塞同步vs异步:同步:相互牵制,两者之间有一定的约束   异步:两者之间无关,互不牵制阻塞vs非阻塞阻塞:发出一个请求,如果条件不满足,会一直等待直到条件满足非阻塞:发出一个请求,如果条件不满足,则直接返回一个标志信息,而不会一直等待下去。并发vs并行并发数是指同时进行的任务数(如同时服务的 HTTP 请求).并行数是可以同时工

2018-02-19 00:00:00 603 1

原创 Python的Socket知识8:进程、数据共享、进程池

进程(process)是cpu资源分配的最小单位,线程(thread)是cpu调度的最小单位。多线程和多进程的应用目的是为了提高并发。一个应用程序可以包含多个进程,而一个进程又可以包含多个线程。默认一个应用程序是单进程、单线程。    主要讲解创建进程的方法,以及实现共享的方式。1、基本使用方法:案例1:创建进程from multiprocessing import Processdef foo(

2018-02-19 00:00:00 649

原创 Python的Socket知识8:进程、数据共享、进程池

     进程(process)是cpu资源分配的最小单位,线程(thread)是cpu调度的最小单位。多线程和多进程的应用目的是为了提高并发。一个应用程序可以包含多个进...

2018-02-19 00:00:00 259

原创 Python的Socket知识6:线程、线程锁、线程池、上下文管理

1、进程、线程     进程(process)是cpu资源分配的最小单位,线程(thread)是cpu调度的最小单位。多线程和多进程的应用目的是为了提高并发。一个应用程序...

2018-02-19 00:00:00 359

原创 Python的Socket知识7:队列、生产者消费者模型

1、队列      队列是一种数据结构,队列queue 多应用在多线程应用中,多线程访问共享变量。对于多线程而言,访问共享变量时,队列queue是线程安全的。从queue...

2018-02-19 00:00:00 440

原创 Python的Socket知识5:IO多路复用

IO 多路复用是5种I/O模型中的一种。1、同步vs异步,阻塞vs非阻塞同步vs异步:同步:相互牵制,两者之间有一定的约束   异步:两者之间无关,互不牵制阻塞vs非阻塞...

2018-02-19 00:00:00 254

原创 Python的Socket知识2:粘包处理

案例1:简单模拟ssh交互程序1)ssh介绍    SSH是一种网络协议,用于计算机之间的加密登录。如果一个用户从本地计算机,使用SSH协议登录另一台远程计算机,我们就可以认为,这种登录是安全的,即使被中途截获,密码也不会泄露。    传统的网络服务程序,如:ftp、pop和telnet在本质上都是不安全的,因为它们在网络上用明文传送口令和数据,别有用心的人非常容易就可以截获这些口令和数据。而且,

2018-02-18 00:00:00 623

原创 Python的Socket知识3:socketserver实现多并发、文件上传下载

socketserver内部使用IO多路复用以及“多线程”和“多进程”,从而实现并发处理多个客户端请求的scoket服务端。即,每个客户端请求连接到服务器时,socket服务端都会在服务器是创建一个“线程”或“进程”专门负责处理当前客户端的所有请求。类似于酒店的大堂经理,负责分配服务员给客户。内部调用流程为:启动服务端程序执行 TCPServer.__init__方法,创建服务端socket对象并

2018-02-18 00:00:00 2447

原创 Python的Socket知识4:作用域

1、Python无块级作用域案例1:python、javascript无块级作用域,块级指缩进的块,比如if..else,for等;但c、java有块级作用域。name='HH'for i in range(10): name=iprint(name)执行结果为:92、Python中没有块级作用域,但是有局部作用域,函数就是一个单独的局部作用域。案例2:仅以函数作为作用域def f1():

2018-02-18 00:00:00 310

原创 Python的Socket知识1:入门(TCP/IP、Socket、HTTP)

理论知识:1、TCP/IP协议    计算机产生后,最先是单机互不兼容模式,随着发展,计算机被一个个的连接起来,形成了一个计算机网路,实现了计算机通信及信息共享,远距离传递信息等工作。互联的过程就需要一个个协议。    协议就是计算机之间通过网络实现通信时事先达成的一种“约定”;这种“约定”使那些由不同厂商的设备,不同CPU及不同操作系统组成的计算机之间,只要遵循相同的协议就可以实现通信。协议可以

2018-02-18 00:00:00 1507

原创 Python的Socket知识4:作用域

1、Python无块级作用域案例1:python、javascript无块级作用域,块级指缩进的块,比如if..else,for等;但c、java有块级作用域。name=...

2018-02-18 00:00:00 176

原创 Python的Socket知识2:粘包处理

案例1:简单模拟ssh交互程序1)ssh介绍    SSH是一种网络协议,用于计算机之间的加密登录。如果一个用户从本地计算机,使用SSH协议登录另一台远程计算机,我们就可...

2018-02-18 00:00:00 269

原创 Python的Socket知识1:入门(TCP/IP、Socket、HTTP)

理论知识:1、TCP/IP协议    计算机产生后,最先是单机互不兼容模式,随着发展,计算机被一个个的连接起来,形成了一个计算机网路,实现了计算机通信及信息共享,远距离传...

2018-02-18 00:00:00 503 1

原创 Python的Socket知识3:socketserver实现多并发、文件上传下载

     socketserver内部使用IO多路复用以及“多线程”和“多进程”,从而实现并发处理多个客户端请求的scoket服务端。即,每个客户端请求连接到服务器时,s...

2018-02-18 00:00:00 658 1

原创 记录软件帮助很大---写给2018年1月的自己

有时候我回头会问自己,为什么能坚持一些事情,比如读书、跑步,记录软件功不可没。人都会有惰性,让外力来帮助自己坚持更容易。介绍几款现在常用的记录软件。1、读书软件的选取:从考虑实惠到深陷其中。    我用的第一个阅读记录软件是百度阅读,刚开始选取的是经典费名著,这些书大多不贵或者免费的,读了一段时间的后,兴趣点发生了变化,开始找其他的书来读,发现一本电子书动辄20、30元,不用优惠券还是要花不小的一

2018-02-02 00:00:00 871 2

原创 记录软件帮助很大---写给2018年1月的自己

    有时候我回头会问自己,为什么能坚持一些事情,比如读书、跑步,记录软件功不可没。人都会有惰性,让外力来帮助自己坚持更容易。介绍几款现在常用的记录软件。1、读书软件的...

2018-02-02 00:00:00 189

原创 JavaScript知识概况

1、JavaScript介绍    JavaScript是一种轻量级的脚本语言,和python语言是一样的,只是由浏览器解释执行,JavaScript可以插入HTML中,由浏览器执行。    目前有两种方式写入JavaScript:直接嵌入script>写入到外部的js文件中,更容易维护。    由于HTML代码是从上到下执行,如果Head中的js代码耗时严重,就会导致用户长时间无法看到页面,如果

2018-01-07 00:00:00 533 1

原创 HTML知识概况

1、什么是 HTML?HTML 是用来描述网页的一种语言。HTML 指的是超文本标记语言 (Hyper Text Markup Language)HTML 不是一种编程语言,而是一种标记语言 (markup language)标记语言是一套标记标签 (markup tag)HTML 使用标记标签来描述网页    Web浏览器的作用是读取HTML文档,并以网页的形式显示出它们,浏览器并不会显示HTM

2018-01-07 00:00:00 494

原创 CSS知识概况

1、什么是CSS    层叠样式表(cascading style sheets),用来定义如何显示HTML元素。    有三种方法在HTML中使用CSS样式:内联样式表:CSS代码写在现有的HTML标签中,直接使用style属性改变样式。案例1:内联式设置body> div style="background-color:red;color:white;">内容div>body>嵌入式样式

2018-01-07 00:00:00 542

原创 JavaScript知识概况

1、JavaScript介绍    JavaScript是一种轻量级的脚本语言,和python语言是一样的,只是由浏览器解释执行,JavaScript可以插入HTML中,...

2018-01-07 00:00:00 162

原创 HTML知识概况

1、什么是 HTML?HTML 是用来描述网页的一种语言。HTML 指的是超文本标记语言 (Hyper Text Markup Language)HTML 不是一种编程语...

2018-01-07 00:00:00 246

原创 CSS知识概况

1、什么是CSS    层叠样式表(cascading style sheets),用来定义如何显示HTML元素。    有三种方法在HTML中使用CSS样式:内联样式表...

2018-01-07 00:00:00 155

原创 Python基础知识3:re正则表达式

正则表达式(或RE)是一种小型的、高度专业化的编程语言,内嵌在Python中,仅做字符的匹配。1、字符类型:普通字符和元字符;1)普通字符:大多数的字符和字母都会和自身匹配,比如:                t2=re.findall('ahh','yahhkkkgggtngslahh')  # 匹配结果['ahh', 'ahh']2)元字符: . ^  $ * + ? {} [] |  ()

2018-01-01 00:00:00 3113

原创 Python模块知识6:OS、SYS模块

1、os模块,和系统相关的,比如获取路径、目录、文件夹之类常用方法:os.getcwd() #获取当前工作目录,即当前Python脚本工作的目录路径os.rename('oldname','new')#重命名文件/目录os.path.abspath(path) #返回path规范化的绝对路径,含文件名的os.path.dirname(path) #获取文件所在的文件夹名称os.chdir("dir

2018-01-01 00:00:00 2305 1

原创 Python模块知识5:日志logging

logging模块提供了通用的日志系统,可以采用不同的方式记录日志,比如文件,HTTP、GET/POST,SMTP,Socket等,甚至可以自己实现具体的日志记录方式;日志分不同提醒级别,级别顺序为:CRITICAL > ERROR > WARNING > INFO > DEBUG > NOTSET,可以自己定义日志级别。    级别越高打印的日志等级越少,反之亦然。debug: 打印全部的日志(

2018-01-01 00:00:00 330

原创 Python模块知识4:序列化Json/pickle

序列化与反序列化序列化:把Python的基本数据类型转为字符串反序列化:把字符串转为Python的基本数据类型Python中用于序列化的两个模块:json     用于【字符串】和 【python基本数据类型】 间进行转换;由于字符串是各语言通用的,json更适合跨语言;但仅支持dict、list、tuple、str、int、flost、True、Falsepickle   用于【python特有

2018-01-01 00:00:00 1847

原创 Python模块知识1:模块知识介绍

模块是代码的归类,能定义函数、类和变量,把相关的代码分配到一个模块里,能让你的代码更好用,更易懂、也更简洁。模块在java中叫做类库。    模块的存在方式:    模块可以是单个.py文件,也可以是一个文件(里面存放n多个.py文件)。    1、模块分类:内置模块:如os和sys是两个非常常见的和操作系统交互的模块;file是文件操作相关的模块;比较常用的一些模块如:logging、time/

2018-01-01 00:00:00 4803

原创 Python模块知识8:configparser、压缩模块

一、configparser模块configparser用于处理特定格式的文件,其本质上是利用open来操作文件。文件格式如:1.基本的读取配置文件-read(filename) 直接读取ini文件内容-sections() 得到所有的section,并以列表的形式返回-options(section) 得到该section的所有option-items(section) 得到该section的所

2018-01-01 00:00:00 1109

原创 Python模块知识2:时间日期日历模块Time、Datetime、Calendar

1、time模块时间为什么从1970年开始:因为Linux系统那一年开始使用;通常由以下几种方式表示时间:时间戳:1970年1月1日之后的秒,即:time.time()可以获得当前时间戳。格式化的字符串:2014-11-11 11:11,如:time.strftime('%Y-%m-%d'),详见案例结构化时间,为元组形式,包含了9个元素:年、日、星期等... 如:time.struct_time

2018-01-01 00:00:00 5435 2

原创 Python模块知识7:XML

XML是实现不同语言或程序之间进行数据交换的协议;通常浏览器返回的字符串有三种格式:1、HTML2、Json3、XML其中,XML可以在页面上做展示,可以作为程序的配置文件(获取字符串类型的XML格式数据)xml的特点:以每一个节点都是element对象,节点下可以嵌套节点,element对象下可以获得各个方法。比如:tag(节点名称)、attib(属性)、text(内容)、makeelement

2018-01-01 00:00:00 3370 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除