![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
极客学院python跟学
文章平均质量分 53
hhyiyuanyu
这个作者很懒,什么都没留下…
展开
-
极客学院课程爬虫
#encoding=utf-8#目标网站http://www.jikexueyuan.com/course/# 目标内容:课程名称,课程介绍,课程时间,课程等级,学习人数# 涉及的知识:requests获取网页,re.sub翻页,正则表达式匹配内容。import requestsimport re#因为在Windows系统下,命令提示符默认的编码是GBK,而HTML中utf-8,编...原创 2018-04-24 16:05:16 · 329 阅读 · 0 评论 -
cookies模拟登陆新浪微博
#encoding=utf-8import requestsfrom lxml import etreefrom multiprocessing.dummy import Poolcook={"Cookie":"xxxxxx"}# cook = {"Cookie":""}# url = 'https://weibo.cn/u/1890493665'url = 'xxx'html...原创 2018-05-21 17:15:39 · 412 阅读 · 0 评论 -
创建mysql数据库
#名称:tbl_user,名称不超过64字符;尽量不使用关键字来命名;#如果全部由数字或者保留字组成,或者名字包含特殊字符,则使用单引号将名字括起来,尽量避免使用#类型,整数类型,字段逗号分隔,分号结尾#用户的名字,字符串类型#用户密码,字符串类型create table tbl_user(#字段id int(3),name varchar(8),pasword varchar(20));#重命名...原创 2018-07-09 21:28:59 · 172 阅读 · 0 评论 -
mysql运算符
-- 算术运算符-- 比较运算符-- 逻辑运算符与位运算符-- 算术运算符+,-,*,/,%select -1.0+2;select 2 / 0 ;-- 除数为0的情况,返回nullselect '2' * 5;-- 运算中字符当成数字使用select '20aa' * 5;-- 数字在前,可以转化为数字select 'aa20' * 5;-- 数字在后,就转化为0select * from ta...原创 2018-07-09 21:30:01 · 347 阅读 · 0 评论 -
mysql数据库——数值类型
-- 数值类型,字符(串)类型,日期时间类型-- 整数类型,浮点数类型;-- 整型-- TINYINT,SMALLINT,MRDIUMINT,INT,BIGINT;-- 一个字节(-128~127),两个字节,三个字节,四个字节,八个字节;-- 浮点型-- FLOAT,DOUBLE,decimal;-- 四个字节,八个字节;create table tabledata (tint tinyint,...原创 2018-07-09 21:31:42 · 470 阅读 · 0 评论 -
mysql数据库——字符类型
-- 字符类型-- CHAR(定长字符串),VARCHAR(变长字符串),-- TEXT(一个较大块文本数据,不区分大小写,非二进制的),-- BLOB(超过范围的就会被自动截断,区分大小写,二进制的);可以添加TINY,LONG等修饰-- varbinary(二进制可变长度字符串),-- enum(枚举,多个字符的选择,只能选择其中的一个),set(插入一个或多个)create table ta...原创 2018-07-09 21:32:23 · 1152 阅读 · 0 评论 -
mysql数据库——时间类型
-- DATA(三个字节1000-1-01-01~9999-12-31),YYYY-MM-DD-- TIME,()HH:MM:SS-- YEAR,(1901-2155)YYYY-- DATETIME,(1000-1-01-01~9999-12-31)YYYY-MM-DD HH:MM:SS 还可以继续向下精确-- TIMRSTAMP(1970-01-01~2037-xx-xx)YYYY-MM-DD ...原创 2018-07-09 21:33:06 · 231 阅读 · 0 评论 -
mysql数据库——插入数据
create table addressbook (fname varchar(255) null,-- first name,255设置最大长度255个字符 lname varchar(255) null,-- last name phone varchar(255) null, ...原创 2018-07-09 21:33:54 · 198 阅读 · 0 评论 -
mysql数据库——更新(修改)、删除数据
-- 插入数值-- 给表设置初试值create table forums (name varchar(150) not null, category varchar(50) default 'UNIX' not null, -- default用来设置默认值 postsPerpage smallint def...原创 2018-07-09 21:35:33 · 3372 阅读 · 0 评论 -
python盗墓笔记爬虫爬虫scrapy_redis——MongoDB存储
目标网站:盗墓笔记小说网站目标网址:http://www.daomubiji.com/目标内容: 盗墓笔记小说的信息,具体内容包括: 书标题 章数 章标题 输出结果保存在MongoDB中####################################记得每次清空redis增加:每一章的正文settings中添加:...原创 2018-05-11 16:09:39 · 642 阅读 · 0 评论 -
python的scrapy爬虫——豆瓣电影top250爬虫练习——保存到CVS文件
xxx\doubanmovie\doubanmovie\items# -*- coding: utf-8 -*-# Define here the models for your scraped items## See documentation in:# https://doc.scrapy.org/en/latest/topics/items.html# import scrap...原创 2018-05-04 15:47:58 · 1560 阅读 · 0 评论 -
XPath与多线程爬虫
#encoding=utf-8 #在进行网页抓取的时候,分析定位html节点是获取抓取信息的关键,目前我用的是lxml模块(用来分析XML文档结构的,当然也能分析html结构), 利用其lxml.html的xpath对html进行分析,获取抓取信息;#神器XPath的介绍与配置 #首先要说的是XPath数据类型。XPath可分为四种数据类型: # 节点集(node-set...原创 2018-04-24 16:07:32 · 143 阅读 · 0 评论 -
XPath特殊应用
#encoding=utf-8from lxml import etreehtml1 = '''<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title></title></hea原创 2018-04-24 16:08:26 · 119 阅读 · 0 评论 -
python并行化
#encoding=utf-8from multiprocessing.dummy import Pool as ThreadPool#导入pool类,命名为ThreadPoolimport requestsimport timedef getsource(url): html = requests.get(url)urls = []for i in range(1,2...原创 2018-04-24 16:09:23 · 340 阅读 · 0 评论 -
百度贴吧爬虫
#encoding=utf-8#目标网站:http://tieba.baidu.com/p/3522395718#跟帖用户名,跟帖内容,跟帖时间#涉及知识:Requests获取网页,xpath提取内容,map实现多线程爬虫from lxml import etreefrom multiprocessing.dummy import Pool as ThreadPoolimport r...原创 2018-04-24 16:09:56 · 127 阅读 · 0 评论 -
正则表达式举例
#encoding=utf-8import re# html里是文本里的内容f = open('text.txt','r')html = f.read()f.close# #爬取标题# # 需要寻找的<title>只出现一次,search()只返回第一个匹配的元素,不用遍历全部,效率更高# title = re.search('<title>(.*?)&...原创 2018-04-24 16:12:33 · 114 阅读 · 0 评论 -
制作爬虫文本
#encoding=utf-8import reimport requests#读取源代码文件f = open('source.txt','r')html = f.read()f.close()#匹配图片网址pic_url = re.findall('img src="(.*?)" class="lessonimg"',html,re.S)i = 0for each in...原创 2018-04-24 16:14:07 · 179 阅读 · 0 评论 -
正则表达式的使用举例re
#encoding=utf-8# 密码:hadkfalifexxlxxfasdjifja134xxlovexx23345sdfxxyouxx8dfse# 答案:I love you#正则表达式import resecret_code = 'hadkfalifexxlxxfasdjifja134xxlovexx23345sdfxxyouxx8dfse'#.的使用举例# a = '...原创 2018-04-24 16:18:28 · 257 阅读 · 0 评论 -
scrapy爬虫基础
生成文件夹在cmd中运行scrapy startproject doubantest(后跟文件夹名字)遇到的问题:跟视频中不一样,豆瓣电影top250加了反爬虫机制,解决办法是在settings.py中加入agent,方法参见百度经验:如何用pycharm编写scrapy项目:[8]user-agent:https://jingyan.baidu.com/article/e52e36151bdf2...原创 2018-05-03 17:43:47 · 161 阅读 · 0 评论 -
数据库-举例(前面的基础知识中使用的数据库)
MariaDB [jikedb]> show tables;+------------------+| Tables_in_jikedb |+------------------+| addressbook || forums || leibusi || new || table_string || table...原创 2018-07-09 21:45:41 · 198 阅读 · 0 评论