python学习
文章平均质量分 68
ant_yi
这个作者很懒,什么都没留下…
展开
-
python基础:1. 基础、数据类型
教程:http://www.runoob.com/python/python-tutorial.htmlpypi网站有许多第三方模块 安装python: 安装anaconda即可 注释: #缩进:python每行都要顶格写,不要缩进。python结束也不用分号,直接换行。utf-8编码:顶部加上(#不可删除): # -*- coding: utf-8 -*-...原创 2018-11-13 22:19:43 · 3433 阅读 · 1 评论 -
python爬虫(三):BeautifulSoup 【3. 遍历】
通过遍历,可以定位到所需节点的位置,再提取信息 下行遍历:属性 说明.contents 子节点的列表,将<tag>所有儿子节点存入列表.children 子节点的迭代类型,与.contents类似,用于循环遍历儿子节点.descendants 子孙节点的迭代类型,包含所有子孙节点,用于循环遍历上行遍历:属性 说明.parent 节点的父亲标签...原创 2018-12-05 23:18:59 · 1538 阅读 · 0 评论 -
python爬虫(三):BeautifulSoup 【4. 输出(prettify)】
bs4的prettify方法非常棒bs4将文本默认转换为utf-8编码prettify方法同样可以对标签进行使用print(soup.a.prettify())原创 2018-12-05 23:21:15 · 5254 阅读 · 0 评论 -
python爬虫(三):BeautifulSoup 【5. 信息提取(find_all)】
find_all:<>.find_all(name, attrs, recursive, string, **kwargs)∙ name : 对标签名称的检索字符串∙ attrs: 对标签属性值的检索字符串,可标注属性检索∙ recursive: 是否对子孙全部检索,默认True∙ string: <>…</>中字符串区域的检索字符串 ...原创 2018-12-05 23:26:32 · 3642 阅读 · 1 评论 -
python爬虫(三):BeautifulSoup 【6. 实例】
爬取最好大学网的大学排名需要掌握的其它知识:(1)列表list1=[1,2,3],list1.append([3,4])(2)format用法.format 比 % 更好用,按位置替换,详细了解可以参考网址https://blog.csdn.net/u014770372/article/details/76021988(3)输出的格式print("{}\t{:...原创 2018-12-09 12:19:51 · 3049 阅读 · 3 评论 -
python爬虫(四):scrapy 【1. 快速上手】
中文文档:http://www.scrapyd.cn/doc/ Scrapy是采用Python开发的一个快速、高层次的屏幕抓取和web抓取框架。什么是爬虫框架?爬虫框架是实现爬虫功能的一个软件结构和功能组件集合。爬虫框架是一个半成品,能够帮助用户实现专业网络爬虫。应用Scrapy爬虫框架主要是编写配置型代码 Scrapy也是第三方库,需要安装anaconda安装...原创 2018-12-09 12:38:40 · 1552 阅读 · 0 评论 -
python爬虫(四):scrapy 【2. 其他重要部分】
中文文档:http://www.scrapyd.cn/doc/ 本节包括:1. resquest 和 response 的属性方法2. scrapy提取信息的强大方法 request 和 responserequest:属性或方法 说明.url Request对应的请求URL地址.method 对应的请求方法,'GET' 'POST'等.heade...原创 2018-12-09 12:41:10 · 1350 阅读 · 0 评论 -
python爬虫(五):实战 【1. 检验代理ip小程序】
# 检验代理ip是否可用import requestsproxy_id = { "http": "http://110.73.42.32:8123"}r = requests.get('http://ip.webmasterhome.cn/', proxies=proxy_id)r.encoding = r.apparent_encodingr.text[4140:4300]...原创 2018-12-09 12:42:39 · 1462 阅读 · 0 评论 -
python爬虫(五):实战 【2. 爬创客实验室(requests + bs4)】
目标:爬取创科实验室网站中讲座的信息,输出表:讲座标题、报告人、单位、报告时间、讲座内容、报告人简介技术:requests + bs4 查看爬虫协议:http://127.0.0.1/lab/robots.txt(创科实验室是我自己写的网址,不反爬虫) 经过观察,在http://127.0.0.1/lab/lectur页面,讲座标题在a标签里,通过点击讲座标题可...原创 2018-12-09 12:47:14 · 1658 阅读 · 0 评论 -
python爬虫(五):实战 【3. 使用正则来爬创客实验室】
依然爬取创科实验室网站中讲座的信息(只爬标题,其它同)但技术上采用requests+正则表达式 思想:#通过正则表达式,获取讲座标题 规则:<h3>中文字符出现4次 任意字符</h3>m = str(re.findall('<h3>[\u4e00-\u9fff]{4}.+</h3>',html))# str转换为字符,分割两次...原创 2018-12-09 12:50:54 · 1487 阅读 · 0 评论 -
python爬虫(五):实战 【4. 爬亚马逊】
目标:在亚马逊网站搜索商品,爬取前10页的商品(名字和价格)第一步:访问网站,隐藏爬虫亚马逊对爬虫限制比较严格,修改headers、cookies、代理ip获取cookie:f12在console输入document.cookie()注意:cookies格式为字典,{'a':'1','b':'2','c':'3'}最好自己手动替换,我用记事本替换=为:就出错了,因为cookie...原创 2018-12-09 12:56:16 · 32749 阅读 · 7 评论 -
python爬虫(五):实战 【5. 使用正则爬亚马逊价格】
使用正则定位价格,更简单import requestsimport reurl = 'https://www.amazon.cn/s/field-keywords=spark'# 隐藏爬虫head = {'user-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)...原创 2018-12-09 12:58:01 · 8353 阅读 · 0 评论 -
python基础:6. 安装、卸载第三方库
包管理器(推荐)Python有个专门管理第三方库的网站PyPI。跟很多的编程语言一样,Python也有包管理器,通过包管理器我们能很方便安装或者卸载第三方库。使用pip或easy_install安装包会自动搜索pypi上最新的包,自动下载安装。当然Anaconda也提供了类似pip的安装方式,区别的是Anaconda是在自己的网站所有相关的库,经常会有一些找不到包而安装失败的情况。 ...原创 2019-01-08 17:26:46 · 1845 阅读 · 1 评论 -
python爬虫(三):BeautifulSoup 【2. 标签的操作】
可以找到标签,可以提取标签名字、标签属性、标签内字符串、注释内容等 BeautifulSoup类的基本元素<p class=“title”> … </p>基本元素 说明Tag html标签,如<p>...</p>Name 标签的名字,格式:<tag>.name,如<p>.nameAttri...原创 2018-12-05 23:17:43 · 1523 阅读 · 0 评论 -
python爬虫(三):BeautifulSoup 【1. 快速上手】
我们使用BeautifulSoup是来解析爬取到的html页面教程文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.htmlBeautifulSoup也是第三方库,需要安装,但anaconda自带(anaconda真强大) 测试:以此页面为例:https://python123.io...原创 2018-12-05 23:14:03 · 1411 阅读 · 0 评论 -
python基础:2. 函数、语法
函数(function)定义:定义函数用def,要使用冒号和缩进def say_hi():print("hi~")say_hi()定义带参数的函数:def sum(a,b):return a+bsum(2,3) 全局变量和局部变量:a = 5 #全局变量def function():b = 1 #局部变量return b;如果在函数内...原创 2018-11-13 22:28:03 · 1448 阅读 · 0 评论 -
python基础:3. 输入输出、异常和异常处理
参考:http://www.runoob.com/python/python-files-io.html 输入:input、raw_input基本相同,都是返回一个字符串不同:input可以输入表达式str = input("请输入:") 输出:printprint 连接两部分:+ ,加号连接两个字符串,逗号可以连接int型 打开:open 关闭:clo...原创 2018-11-13 22:35:53 · 2617 阅读 · 0 评论 -
python基础:4. 类和对象
对象:属性+方法首先定义Pig类,然后就可以创建对象了 pig1 = Pig()类相当于模具,实例化后相当于产品self 相当于java中的 this,只需记得写self是默认的要求如果方法需要参数,这样写class Animal:def setName(self, name):self.name = nameprint ("我叫", self.name)...原创 2018-11-13 22:49:37 · 1407 阅读 · 0 评论 -
python基础:5. 猜数字游戏
需求:1. 猜数字大小2. 有三次机会3. 使用random函数 print("游戏:猜数字\n请输入一个数字")import randomsecret = random.randint(1,10)for i in range(1,4):guess = int(input())if (guess == secret):print("猜对了")brea...原创 2018-11-13 22:51:21 · 1594 阅读 · 0 评论 -
django网页开发:1. 安装、目录介绍
django自学网站、中文文档http://djangobook.py3k.cn/2.0/ 安装django(必须,不然项目部署报500错误)http://www.djangoproject.com/download/解压缩.tar.gz文件。 解压缩完成后,以管理员权限启动一个DOS Shell(命令提示符),执行如下命令:python setup.py instal...原创 2018-11-13 23:04:10 · 1397 阅读 · 0 评论 -
django网页开发:2. 模板、url、超链接
PEP 8: expected 2 blank lines, found 1原因在于pep 8规范,在声明函数的那一行的上方必须有两行的空行 新建django项目,app名blogdjango项目在创建时会生成一个templates文件夹,用于存放html文件templates新建index.html,内容随便输点 配置url:首先views.py定义一个函数(使用...原创 2018-11-13 23:07:12 · 3357 阅读 · 0 评论 -
django网页开发:3. 模型、数据库、admin
搞定数据库(1)创建数据库django默认使用的数据库是sqlite3,如果需要使用其他数据库需要配置文件settings.py数据库需要放一张表,存放文章标题、文章内容、作者、时间blog/models.py(2)生成数据表(数据迁移)工具——》run manage.py task...——》输入makemigrations,再输入migrateblog目...原创 2018-11-13 23:15:59 · 1347 阅读 · 0 评论 -
django网页开发:4. 静态文件(css、js、图片)
静态文件在blog_project项目的settings.py上配置静态文件是指 网站中的 js, css, 图片,视频等文件,新建一个static文件夹来存放他们引用static文件夹,在settings.py末尾加上:STATICFILES_DIRS = (os.path.join(BASE_DIR, 'static'),)注意这是元组,需要逗号然后html...原创 2018-11-13 23:18:49 · 1629 阅读 · 0 评论 -
django网页开发:5. 部署(apache+mod_wsgi)
必须安装的环境:python:3.6django:2.1.2(在部署时一直报500错误,最后发现是我犯了一个很低级的错误,没装django)(因为是从别的电脑拷贝来的,pycharm直接创建的Django项目,忽略了这一步) 如果部署到apache服务器:版本环境:apache:2.4mod_wsgi:要根据apache和python版本而定 参考:ht...原创 2018-11-13 23:24:45 · 1534 阅读 · 0 评论 -
python数据分析(numpy、matplotlib、pandas)
参考教程:https://www.cnblogs.com/yan-lei/tag/%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90/原创 2018-11-14 19:22:51 · 1705 阅读 · 0 评论 -
python爬虫(一):urllib(不常用)
1. python连接互联网使用urllib库或者requests库urllib库是python自带的标准库requests库是第三方库,友好度更高,需要安装(anaconda实测不用)urllib.request.urlopen() # 导包import urllib.request# 打开网站,保存内容,赋值到responseresponse = urlli...原创 2018-12-05 23:00:47 · 2573 阅读 · 0 评论 -
python爬虫(二):requests库(常用)
requests库是第三方库,需要安装(anaconda自带),但友好度更高教程:http://docs.python-requests.org/zh_CN/latest/ 连接网页并打印网页内容:import requestsr = requests.get("http://www.baidu.com")r.encoding = 'utf-8'r.status_cod...原创 2018-12-05 23:07:39 · 1537 阅读 · 0 评论 -
FCM-python
总代码:# -*- coding:utf-8 -*-from pylab import *from numpy import*import pandas as pdimport numpy as npimport operatorimport mathimport matplotlib.pyplot as pltimport randomimport copyimport...原创 2019-03-27 11:05:01 · 2979 阅读 · 1 评论