2018年12月_ccszbd

原创【知识图谱学习笔记】01知识图谱简介

与其他面向知识的信息系统相比，知识图谱有其独特的知识表示结构，信息管理流程以及搜索算法。知识图谱的概念来自于2012年谷歌开始将知识图谱应用于他的搜索引擎，使得用户能够搜索人、地点、以及文档，而不仅仅是序列匹配...

2018-12-17 10:26:30 432

原创【python爬虫实例】爬取豆瓣图书及信息

# -*- coding: UTF-8 -*-import sysimport timeimport urllibimport requestsimport numpy as npfrom bs4 import BeautifulSoupfrom openpyxl import Workbook# Some User Agentshds = [{'User-Agent': ...

2018-12-14 20:10:05 6868 1

原创【python爬虫学习笔记】09 Scrapy爬虫的数据类型及yield关键字

Yield关键字yield<—>生成器生成器是一个不断产生值的函数包含yield语句的函数是一个生成器生成器每次产生一个值(yield语句)，函数被冻结，被唤醒后再产生一个值具体使用：class DemoSpider(scrapy.Spider): name = 'demo' def start_requests(self): urls=...

2018-12-14 19:57:23 353

原创【python爬虫学习笔记】08 Scrapy爬虫框架结构及常用命令

Scrapy爬虫的5+2结构Engine 不需要用户修改控制所有模块之间的数据流根据条件触发事件Downloader 不需要用户修改根据请求下载网页Scheduler 不需要用户修改对所有爬取请求进行调度管理Downloader Middleware 用户可以编写配置代码目的:实施Engine、Scheduler和Downloader之间进行用户可配置的控制功能:修改、丢弃...

2018-12-14 19:47:46 397

原创【IndentationError】unindent does not match any outer indentation level

python中出现IndentationError:unindent does not match any outer indentation level【解决过程】1.对于此错误是某行或某几行的缩进错误造成的。但是根据错误提示的行数，去代码中看了下都有缩进，而且语法也没有错误2.于是想到把当前python脚本的所有字符（包括空格和tab字符）都显示出来看看到底有没有缩进或者是其他特殊的字...

2018-12-14 19:24:52 2512

原创【python爬虫学习笔记】07 股票数据定向爬虫实例

功能描述目标:获取上交所和深交所所有股票的名称和交易信息输出:保存到文件中技术路线：requests-bs4-re候选数据网站的选择新浪股票:http://finance.sina.com.cn/stock/百度股票:http://gupiao.baidu.com/stock/东方财富网:http://quote.eastmoney.com/stocklist.html选取...

2018-12-13 21:22:11 406

原创【python爬虫学习笔记】06 正则表达式以及Re库入门

正则表达式及使用正则表达式是用来简洁表达一组字符串的表达式优势：简洁编译：将符合正则表达式语法的字符串转换成正则表达式特征正则表达式在文本处理中的应用表达文本类型的特征(病毒、入侵等)同时查找或替换一组字符串匹配字符串的部分或全部等正则表达式的常用操作符实例正则表达式对应字符串P(YYTPYTHON+‘PYTHON’,‘PYTHONN’,‘PY...

2018-12-10 21:56:42 155

原创【python爬虫学习笔记】05 利用requests-bs4的大学排名定向爬虫的实例

功能描述输入大学排名URL链接输出大学排名信息的屏幕输出(排名，大学名称，总分)程序的结构设计步骤1：从网络上获取大学排名网页内容 getHTMLText() 步骤2：提取网页内容中信息到合适的数据结构 fillUnivLisr() 步骤3：利用数据结构展示并输出结果 printUnivList()完整代码import requestsi...

2018-12-10 21:33:00 230

原创【django学习笔记】02 第一个Django项目与ORM简单操作梳理

Django项目的创建setting.py文件配置html文件存放的位置配置静态文件存放的位置Templates存放HTML文件的配置Base_DIR是你的项目的根目录路径static静态文件存放css/js/图片出现403报错注释掉setting.py带有csrf的那一行，大概46登录的完整示例form表单往后端提交数据需要注意哪三点:form不是from，所有获...

2018-12-07 22:03:06 103

原创【python爬虫学习笔记】04 BeautifulSoup库入门及信息的标记方法

1.BeautifulSoup库概述BeautifulSoup库的基本介绍BeautifulSoup库相当于一个标签树，也可称为是一个HTML文档，这个库对应于一个HTML/XML文档的全部内容。bs4库的基本元素Tag，Name，Attributes，NavigableString，Comment2.基于bs4库的HTML内容的遍历方法1. 标签树的下行遍历标签用法注释...

2018-12-07 21:33:09 200

原创【python爬虫学习笔记】03 requests库爬取的简单实例以及robots协议

1. 爬取京东手机信息import requestsdef getHTMLText(url): try: r = requests.get(url,timeout=30) #如果状态不是200，引发HTTPError异常 r.raise_for_status() r.encoding = r.apparent_encoding print(r.text[:1000]) ...

2018-12-05 21:38:07 816

原创【python爬虫学习笔记】01 python网络爬虫与信息提取

来自于MOOC网的北京理工大学嵩天老师的python爬虫与信息提取的课程笔记，同步学习，持续更新python网络爬虫与信息提取课程分为以下6个部分requests自动爬取html页面，自动网络请求提交robots.txt网络爬虫排除标准beautiful soup解析html页面projects实战项目A/BRe正则表达式详解，提取页面关键信息Sc...

2018-12-04 17:01:21 324

原创【python爬虫学习笔记】02 requests库入门

1.requests库的7个主要方法但在爬虫中通常只会使用到head和get方法，其他方法只做了解即可requests库主要方法解析requests.request(method,url,**kwargs)*requests.get(urlparams=None,**kwargs)requests.head(url,*kwargs)requests.post(url,data=Non...

2018-12-04 16:53:05 192

原创【django学习笔记】01 HTTP协议基础与一个简单的web服务端实例

浏览器和服务端通讯都要遵循一个HTTP协议(消息格式的要求)关于HTTP协议1.浏览器往服务器端发的叫请求(request) 请求的消息格式：请求方法路径 HTTP/1.1\r\n k1:v1\r\n k2:v2\r\n \r\n 请求数据 2.服务器端往浏览器发的叫响应(response) 响应的消息格式： HTTP/1.1 状态码状态描述符\r\...

2018-12-03 21:30:45 235

ccszbd的博客