![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python学习
文章平均质量分 87
huhanghao
Dream it Wish it Do it
展开
-
Python 再学习1
Python 再学习1基础语法打通小异,所以不赘述了基本环境:IDE环境:PyCharmpython库管理:Anaconda参考:https://www.jianshu.com/p/169403f7e40c他能管理你的安装环境和各种工具包,包含了conda、Python等190多个科学包及其依赖项。使用:可以直接在图形界面搜索包,也可原创 2018-01-17 15:12:30 · 479 阅读 · 2 评论 -
python Scrapy框架2—简单的数据抓取
python Scrapy框架2—数据抓取spider中的流程spider数据抓取在scrapy框架中,我们通过命令scrapy crawl itcast去执行spiders中的python脚本。这里的itcast 是name中的内容两种初始化url的方法1、常量start_urls,并且需要定义一个方法parse()start_urls = [ ...原创 2018-11-01 23:25:06 · 248 阅读 · 0 评论 -
爬虫网页分析——XPath与lxml的使用
爬虫网页分析——XPath与lxml的使用简介:xpath :是一种结构化网页元素选择器,支持列表和单节点数据获取,他的好处可以支持规整网页数据抓取。xPath helper:是一款Chrome浏览器的开发者插件,让开发者能轻松获取HTML元素的。整个抓取使用了xpath、正则表达式、消息中间件、多线程调度框架)。我们可以用它进行xpath的实践使用。lxml:lxml...原创 2018-11-14 09:56:45 · 1561 阅读 · 0 评论 -
爬虫网页分析--beautifulsoup4
爬虫网页分析--beautifulsoup4我们用到的html示例:html = """<html><head><title>The Dormouse's story</title></head><body><p class="title" name="原创 2018-11-20 01:16:21 · 614 阅读 · 0 评论 -
Scrapy结构学习——settings配置
Scrapy结构学习——settings配置简介:Settings允许自定义所有Scrapy组件的行为,包括核心,扩展,管道和爬虫本身。设置的基础结构提供了键值映射的全局命名空间,代码可以使用它从中提取配置值。可以通过不同的机制来填充设置。settings中的选项settings参数有四个级别,优先级如下: 命令行选项(Command line Options)(最高优先...原创 2018-12-04 00:07:25 · 509 阅读 · 0 评论 -
初学Django 使用遇到的坑
初学django 使用遇到的坑在调整models之后,调用出错~这里在调整完models的数据结构之后,需要删掉sqlite自动生成的db.sqlite3文件和migrations中自动生成的文件。将数据库从sqlite替换成mysql报错具体报错是:No module named 'MySQLdb'。因为:python3连接MySQL不再使用MySQLdb。而是使用PyMyS...原创 2018-12-21 09:17:32 · 559 阅读 · 0 评论 -
Xpath使用实例和需要注意的事项
Xpath使用实例和需要注意的事项Xpath的语法介绍就不赘述了,参考:https://blog.csdn.net/u011486491/article/details/84061432这篇文章就以实际使用为例,对一些xpath比较复杂的情况进行讨论使用。常用的标签提取字段<li class="tjqyList-content"> <div class=...原创 2018-12-11 21:26:41 · 1115 阅读 · 0 评论 -
Python Django 创建流程和命令
Python Django 创建流程和命令创建项目:django-admin startproject test1创建名字为test1的Django项目,期目录结构如下: manage.py:一个命令行工具,可以使你用多种方式对Django项目进行交互 内层的目录:项目的真正的Python包 _init _.py:一个空文件,它告诉Python这个目录应该被看...原创 2018-12-18 20:31:58 · 195 阅读 · 0 评论 -
Python数据分析_Pandas学习__1
结构:DataFrame是一个类似于表格的数据类型,如图:参数:data(方框内的数据): numpy ndarray (structured or homogeneous), dict, or DataFrameindex(行索引索引) : Index or array-likecolumns (列索引): Index or array-likedtype(...原创 2019-01-04 00:05:57 · 251 阅读 · 0 评论 -
Python数据分析_Pandas学习__2
Python数据分析_Pandas学习__2## 常用数据分析方法# 查看数据的行数和列数df.shape>>> (68630, 14)d1.count() #非空元素计算d1.min() #最小值d1.max() #最大值d1.idxmin() #最小值的位置,类似于R中的whi...原创 2019-01-04 00:06:41 · 268 阅读 · 0 评论 -
python Scrapy框架1—框架流程、结构和一个简单的例子
python爬虫学习_Scrapy框架1—框架流程、结构和一个简单的例子框架图 Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。 Scheduler(调度器): 它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。 ...原创 2018-11-01 20:06:22 · 1530 阅读 · 0 评论 -
python爬虫学习7_Beautiful Soup使用
python爬虫学习7_Beautiful Soup使用简介Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。 Beautiful Soup 是基于HTML DOM的,会载入整个文档,解析整个DOM树 BeautifulSoup 用来解析 HTML 比较简单,API非常人性化,支持CSS选择器、Python...原创 2018-10-20 16:57:29 · 280 阅读 · 1 评论 -
python爬虫学习6_UrlLib使用进阶
python爬虫学习6_UrlLib使用进阶基础使用的话参看之前的文档:基础使用:https://blog.csdn.net/u011486491/article/details/82844587请求头和代理:https://blog.csdn.net/u011486491/article/details/82973379异常处理:https://blog.csdn.net/u01...原创 2018-10-20 11:11:23 · 421 阅读 · 0 评论 -
Python 再学习2
Python 再学习2迭代器迭代器是访问集合元素的一种方式。他从集合的第一个元素开始访问,直到访问完集合,只前进不后退。可迭代对象iterable:凡是可以返回一个迭代器(iterator)的对象都可称之为可迭代对象常用的几种:1、 集合数据类型:如:list、tuple、dict、set、str等2、 生成器(包括带yield的generator function)这些都对象原创 2018-01-18 18:21:30 · 189 阅读 · 0 评论 -
Python 再学习3
Python 再学习3深拷贝和浅拷贝浅拷贝:仅仅是拷贝了对象的在内存中的引用深拷贝:在内存重新建个对象,将内容拷贝过来 == 和isis比较两个引用是否指向通过各对象==比较两个对象是否相等 浅拷贝:其实就是一个赋值操作,将对象的引用传给一个变量。除了一般的赋值之外我们还可以使用copy包中的copy函数来实行 深拷贝:是对一个对象所有层次的拷贝我们可以用copy包中的deepcopy实现: 对原创 2018-01-19 15:57:33 · 175 阅读 · 0 评论 -
python的文件操作
python的文件操作基本操作打开文件 f = open('test.txt', 'w')读取方式:访问模式说明r以只读方式打开文件。文件的指针将会放在文件的开头。这是默认模式。w打开一个文件只用于写入。如果该文件已存在则将其覆盖。如果该文件不存在,创建新文件。a打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾。也就是说,新的内容将会被写入到已有内容之后。如果该文件不存在,...原创 2018-07-09 23:13:27 · 194 阅读 · 0 评论 -
python面向对象
python面向对象基本的对象代码:# 定义类class Car: # 移动 def move(self): print('车在奔跑...') # 鸣笛 def toot(self): print("车在鸣笛...嘟嘟..")# 创建一个对象,并用变量BMW来保存它的引用BMW = Car()BMW.color =...原创 2018-07-10 23:49:08 · 310 阅读 · 0 评论 -
python爬虫学习1_爬虫介绍和抓包工具
python爬虫学习1_爬虫介绍和抓包工具通用爬虫:通用网络爬虫 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。从而提供关键字检索。搜索引擎爬虫基本流程:通用爬虫协议:Robots协议(也叫爬虫协议、机器人协议等),全称是“网络爬虫排除标准”(Robots Exclusion...原创 2018-09-13 20:36:00 · 1176 阅读 · 0 评论 -
python爬虫学习2_urlLib基本使用
python爬虫学习2_urlLib基本使用urlLib库在urlLib应用在python3.0之后。常用api里面的方法有: urllib.request模块是用来打开和读取URLs的; urllib.error模块包含一些有urllib.request产生的错误,可以使用try进行捕捉处理; urllib.parse模块包含了一些解析URLs的方法; ...原创 2018-09-25 20:26:40 · 200 阅读 · 0 评论 -
python爬虫学习3_urlLib异常处理
python爬虫学习3_urlLib异常处理urllib.error有两个方法,URLError和HTTPError。HTTPError就是我们常用的服务器返回的错误码。它是URLError的一个子类。常用的代码结构:通过hasattr判断是否有对应属性,然后再打印。# -*- coding: UTF-8 -*-from urllib import requestfrom...原创 2018-10-08 20:36:00 · 1020 阅读 · 0 评论 -
python爬虫学习4_模拟用户登录和代理设置
python爬虫学习4_模拟用户登录和代理设置模拟用户登录为了尽量模仿用户登录,我们需要在head中设置 User Agent常见的User AgentAndroidMozilla/5.0 (Linux; Android 4.1.1; Nexus 7 Build/JRO03D) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0...原创 2018-10-08 20:38:02 · 584 阅读 · 0 评论 -
python爬虫学习5_cookie的获取、保存和使用
python爬虫学习5_cookie的获取、保存和使用Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)。 比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容,登陆前与登陆后是不同的,或者不允许的。在python中它为我们提供了cookiejar模块,它位于http包中,用于对Cookie的支持。通过它我们能...原创 2018-10-08 20:39:54 · 3001 阅读 · 0 评论 -
Spider和CrawlSpider
Spider和CrawlSpiderspider它的基类为scrapy.Spider,所有编写的爬虫必须继承这个类。主要用到的函数及调用顺序为:__init__() : 初始化爬虫名字和start_urls列表parse() : 解析response,并返回Item或Requests(需指定回调函数)。Item传给Item pipline持久化 , 而Requests交由Scr...原创 2019-01-14 09:57:43 · 1153 阅读 · 0 评论