自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 资源 (1)
  • 收藏
  • 关注

原创 python爬虫(五)爬虫实战

一、爬取新浪新闻网页url = "https://news.sina.cn/gn?vt=4&pos=3"1、分析页面内容1)为了方便使用Chrome浏览器打开该网页。进入网址后,按F12进入开发界面;2)点击右上角的Network,再点击下方的Doc(因为大部分新闻网址的新闻内容都在这查找)。查看内容是否就是我们需要的新闻内容;如果存在就进行下一步;3)点击...

2019-04-14 19:11:35 510

原创 python爬虫(四)Selenium

一、动态网页处理1、很多网站都采用AJAX技术,SPA技术,部分内容都是异步动态加载的。可以提高用户体验,减少不必要的流量,方便CDN加速等;2、但是,对于爬虫程序爬取到的HTML页面相当于页面模板了,动态内容不在其中;3、解决办法: 1)如果能构造一个包含JS引擎的浏览器,让它加载网页并和网站交互,我们编程从这个浏览器获取内容包括动态内容。二、PhantomJ...

2019-04-14 13:35:10 180

原创 python爬虫(三)Beautiful Soup 4

一、Beautiful Soup 4Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库.1、安装$pip install beautifulsoup42、导入from bs4 import BeautifulSoup3、初始化BeautifulSoup( markup="" , features=None )markup:...

2019-04-14 11:04:36 212

原创 python爬虫(二)XPath

一、XPathXPath是一门在XML文档中查找信息的语言。XPath可用来在XML文档中对元素和属性进行遍历;二、XPath节点在XPath中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档节点(或称为根节点)。例如:<?xml version="1.0" encoding="ISO-8859-1"?><bookstore&...

2019-04-14 09:17:59 168

原创 python爬虫(一)Requests库

一、概述1、爬虫,应称为网络爬虫,也叫网页蜘蛛、网络机器人、网络蚂蚁等;2、搜索引擎,就是网络爬虫的应用者;二、爬虫分类1、通用爬虫:常见的就是搜索引擎;2、聚焦爬虫:有针对性的编写特定领域数据的爬取程序,是面向主题的爬虫;三、Robots协议简单来说就是告诉爬虫引擎什么可以爬取,“爬亦有道”;四、爬虫的HTTP请求和响应处理其实就是爬取...

2019-04-14 00:53:35 356

原创 Python 面向对象简单概念

Python 面向对象简单概念举例:你吃鱼你,就是对象(实例);鱼,也是对象(实例);吃就是动作(方法);你是具体的人,是具体的对象。你属于人类(class),人类是抽象的概念,是无数具体的个体特征的抽象;鱼,也是具体的对象;吃,是你的方法,也是操作、动作;class MyClass:# class 关键字用于定义类 x = 'abc' def foo(sel...

2018-09-16 21:21:03 114

原创 正则表达式 Regular Expression

Regular Expression正则表达式是文本处理极为重要的技术,用它对字符串按照某种规则进行检索、替换;一、基本语法:1.1 元字符 meta character【1、元字符都是表示一个字符;2、元字符中的斜杠都是反斜杠;3、全局匹配;】 注意:元字符 \w 类似标识符; 转义:凡是在正则表达式中有特殊意义的符号,如果想使用它的本意,请使用 \ 转义; \r ...

2018-09-10 08:24:29 219

原创 文件系统

1、文件操作 1.1 冯诺依曼体系结构(五大结构:输入输出设备、存储器、运算器、控制器)CPU 由运算器和控制器组成:1、运算器:完成各种算术运算、逻辑运算、数据传输等数据加工处理;2、控制器:控制程序的执行;3、存储器:用于记忆程序和数据;例如,内存。4、输入设备:将数据或者程序输入到计算机中;例如,键盘、鼠标。5、输出设备:将数据或者程序的处理结果展示给用户;例如...

2018-09-03 08:54:32 170

原创 Python函数小结

第四章 函数总结1、函数返回值return总结:Python函数使用return语句返回 ” 返回值 “,函数不能同时返回多个值,有且仅有一个值返回; 所有函数都有返回值,如果没有return语句,隐式调用return None; return 语句并不一定是函数的语句块的最后一条语句,但如果return语句调用后return语句后的所有部分将不再执行; 函数可以存在多个return...

2018-08-25 17:49:27 215

原创 python字典dict

字典dict 1、字典是可变的、无序的、key不重复(可hash)的非线性结构;【set的元素就是key,key可hash唯一,任何可变的数据结构(list,bytearry,dict,set)都不可以hash】  *args表示任何多个无名参数,它是一个tuple**kwargs表示关键字参数,它是一个dict2、字典的定义:【构造字典的特点:因为字典是键值对构成的,...

2018-08-20 07:58:56 287

原创 python数据结构:元组、字符串

1、元组tuple定义一个由有序元素组成的不可变的集合,使用小括号()表示;定义:(1)tuple() 或 tuple( iterable )eg:t = tuple()t = ()t = tuple(range(1,7,2))t = (1,) #一个元素元组的定义,注意有个逗号; 2、元组元素的访问(1)支持索引(下标),索引不可越界,否则会报IndexErr...

2018-08-11 15:40:17 265

原创 Python数据结构(list)

列表list(索引快,增删慢)一个由若干有序元素组成的线性的可变的数据结构叫列表;(1)列表使用中括号 [ ] 表示;(2)列表内元素是有顺序的,可以索引;(3)列表是线性的数据结构;(4)列表是可变的; 链表(增删快,索引慢)链表是一种物理存储单元上非连续、非顺序的存储结构,数据元素的逻辑顺序是通过链表中的指针链接次序实现的。链表由一系列结点(链表中每一个元素称为...

2018-08-11 12:24:49 994

原创 Python练习题(九九乘法表、打印菱形、求素数、求斐波那契数列)

1、打印九九乘法表for i in range(1,10): for j in range(1,i+1): print(str(j) + '*' + str(i) + '=' + str(i*j),end=' ') print()2、打印以下ling菱形     for i in range(-3,4): if i&l...

2018-08-04 09:22:15 445

原创 Linux入门基础

第一章 Linux系统入门1、操作系统与硬件无论是linux、OS X、windows操作系统,他们都是由以下部分组成(分层结构):最底层:硬件底层之上:将硬件的接口抽象成为系统调用(kernel)再之上:库再此之上为:应用程序 用户空间:User space用户程序的运行空间。为了安全,它们是隔离的,即使用户的程序崩溃,内核也不受影响只能执行简单的运算,不...

2018-07-29 22:03:05 151

tomcat8.5压缩包

tomcat8.5的压缩包工具,解压缩后使用

2018-04-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除