2019年02月_学无止境-程序猿

翻译 18.python-爬虫的基础认知，面向对象

面向过程 VS 面向对象面向过程的程序设计的核心是过程（流水线式思维），过程即解决问题的步骤，面向过程的设计就好比精心设计好一条流水线，考虑周全什么时候处理什么东西。优点是：极大的降低了写程序的复杂度，只需要顺着要执行的步骤，堆叠代码即可。缺点是：一套流水线或者流程就是用来解决一个问题，代码牵一发而动全身。应用场景：一旦完成基本很少改变的场景，著名的例子有Linux內核，gi...

2019-02-02 15:59:47 658 3

原创 17.python-爬虫的基础认知，数据结构

Python中的数据结构这里总结一下Python中的内置数据结构（Built-in Data Structure）:列表list、元组tuple、字典dict、集合set，涵盖的仅有部分重点，详细地去介绍每个知识点并未涉及。列表list# -*- coding: utf-8 -*-# @Time : 2019/1/22 0022 18:40# @Aut...

2019-02-02 15:30:23 314

原创 16.python-爬虫的基础认知，python变量与字符串的应用

定义变量什么是变量？在程序运行过程中，其值可以改变的量标识符(命令规范)只能由数字、字母、下划线组成不能以数字开头不能是系统关键字# 导入包import keyword# 打印所有关键字print(keyword.kwlist)命名原则尽量做到见名知意尽量用英文，实在不行全拼推荐使用全小写加下划线的方式，如：user_name变量赋值...

2019-02-02 15:25:21 417

原创 11.python-爬虫的基础认知，网络的http协议和https协议的区别

HTTPS和HTTP的区别主要如下：1、https协议需要到ca申请证书，一般免费证书较少，因而需要一定费用。2、http是超文本传输协议，信息是明文传输，https则是具有安全性的ssl加密传输协议。3、http和https使用的是完全不同的连接方式，用的端口也不一样，前者是80，后者是443。4、http的连接很简单，是无状态的；HTTPS协议是由SSL+HTTP协议构建的可进...

2019-02-01 19:20:36 242

转载 10.python-爬虫的基础认知，网络http协议是什么？

http详解当今web程序的开发技术真是百家争鸣，ASP.NET, PHP, JSP，Perl, AJAX 等等。无论Web技术在未来如何发展，理解Web程序之间通信的基本协议相当重要, 因为它让我们理解了Web应用程序的内部工作. 本文将对HTTP协议进行详细的实例讲解，内容较多，希望大家耐心看。也希望对大家的开发工作或者测试工作有所帮助。什么是HTTP协议协议是指...

2019-02-01 19:16:09 362

转载 9.python-爬虫的基础认知，虚拟环境的设置与操作

python虚拟环境的操作：virtualenv和virtualenvwrapper本文使用virtualenvwrapper，还有就是现在的大多数编译器有选择不同python版本的功能，可以都安装，在按照程序自主设置版本。安装linux和mac下安装pip install virutalenv virtualenvwrapperwindows下安装pip inst...

2019-02-01 17:51:14 302

翻译 7.python-爬虫的基础认知，python2和3版本的区别？

几乎所有的python2程序都需要一些修改才能正常的运行在python3的环境下。为了简化这个转换过程，Python3自带了一个2to3的实用脚本.这个脚本会将python2程序源文件作为输入，然后自动转换到python３．但并不是所有内容都可以自动转换。print语句python2中print是一个语句，不论想输出什么，直接放到print关键字后面即可。python3...

2019-02-01 17:14:51 637

原创 6.python-爬虫的基础认知，为什么使用python写爬虫？

用什么语言写爬虫？C，C++。高效率，快速，适合通用搜索引擎做全网爬取。缺点，开发慢，写起来又臭又长，例如：天网搜索源代码。脚本语言：Perl, Python, Java, Ruby。简单，易学，良好的文本处理能方便网页内容的细致提取，但效率往往不高，适合对少量网站的聚焦爬取C#？（貌似信息管理的人比较喜欢的语言）为什么最终选择Python？傻白甜，易上手跨...

2019-02-01 15:39:41 720

原创 5.python-爬虫的基础认知，爬虫的目标分析，搜索算法

抓取目标分类来自：百度百科抓取目标的描述和定义是决定网页分析算法与URL搜索策略如何制订的基础。而网页分析算法和候选URL排序算法是决定搜索引擎所提供的服务形式和爬虫网页抓取行为的关键所在。这两个部分的算法又是紧密相关的。现有聚焦爬虫对抓取目标的描述可分为基于目标网页特征、基于目标数据模式和基于领域概念3种。 ...

2019-02-01 15:28:20 909

原创 4.python-爬虫的基础认知，爬虫的几大分类？

分类来自：百度百科网络爬虫按照系统结构和实现技术，大致可以分为以下几种类型：通用网络爬虫（General Purpose Web Crawler）、聚焦网络爬虫（Focused Web Crawler）、增量式网络爬虫（Incremental Web Crawler）、深层网络爬虫（Deep Web Crawler）。实际的网络爬虫系统通常是几种爬虫技术相结合实现的 ...

2019-02-01 14:21:56 2215

原创 3.python-爬虫的基础认知，什么是聚焦爬虫？（以后大部分接触的都是聚焦爬虫）

聚焦爬虫来自：百度百科网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的...

2019-02-01 14:09:48 1178

原创 1.python-爬虫的基础认知（爬虫的实际案例）

爬虫的实际例子： 1.百度，谷歌（搜索引擎）， 2.新闻网(各种资讯网站)， 3.各种购物助手（比价程序） 4.数据分析（数据冰山知乎） 5.抢票软件什么是网络爬虫？来自：百度百科网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另...

2019-02-01 13:42:15 597

Programmer_huangtao的博客