python&python爬虫
taczeng
最简单的代码完成尽可能复杂的功能
展开
-
Python高级系统知识之(一):python装饰器
背景:学习python的人肯定听过一个词,装饰器,那到底什么是装饰器,网络知识有很多介绍,这里,我基于自己的理解,进行一个系统总结,希望能让更多人加深理解作用:概括的讲,装饰器的作用就是为已经存在的函数或对象添加额外的功能实战:应用场景:1,引入日志2,函数执行时间统计3,执行函数前预备处理4,执行函数后清理功能5,权限校验等场景6,缓存7,事务处理装饰器怎么用:...原创 2019-04-27 18:08:12 · 159 阅读 · 0 评论 -
爬虫系列一:十天python爬虫基础学习实战第十天——python文件处理
今天内容:1.文件处理2.os模块部分函数使用打开和关闭文件现在,您已经可以向标准输入和输出进行读写。现在,来看看怎么读写实际的数据文件。Python 提供了必要的函数和方法进行默认情况下的文件基本操作。你可以用file对象做大部分的文件操作。open 函数你必须先用Python内置的open()函数打开一个文件,创建一个file对象,相关的方法才...原创 2019-06-03 15:17:48 · 263 阅读 · 0 评论 -
python爬虫高阶:解析方式详解(待后续补充)
BeautifulSoup官方中文文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.htmlhttps://blog.csdn.net/abclixu123/article/details/39754799xpath官方中文文档:http://www.w3school.com.cn/...原创 2019-06-10 14:58:58 · 400 阅读 · 0 评论 -
python打包成为exe程序
https://blog.csdn.net/shuryuu/article/details/82622621原创 2019-06-17 11:58:00 · 193 阅读 · 0 评论 -
爬虫的法律风险
https://cloud.tencent.com/developer/article/1420993原创 2019-06-17 14:56:05 · 3340 阅读 · 0 评论 -
爬虫系列二:十天爬虫实战入门第四天——网页的基本结构
爬虫就是通过代码的形式,获取互联网上一切公开的数据,这是爬虫可以干的事情!html文本格式(90%)<!DOCTYPE html><html><head><meta charset="utf-8"><title>HTML知识学习</title></head><body> ...原创 2019-07-03 15:54:04 · 264 阅读 · 0 评论 -
爬虫系列二:十天爬虫实战入门第五天——python3爬虫一些HTTP库及其使用
一.urllib库:urllib.request用于访问和读取URLS(urllib.request for opening and reading URLs),就像在浏览器里输入网址然后回车一样,只需要给这个库方法传入URL和其他参数就可以模拟实现这个过程。 urllib.error包括了所有urllib.request导致的异常(urllib.error containing the...原创 2019-07-03 15:54:43 · 511 阅读 · 0 评论 -
爬虫系列二:十天爬虫实战入门第七天——python3爬虫一些解析库及其使用:XPath(一)
课程地址:爬虫层面:抓取,解析,入库NO1.谷歌浏览器按照xpathhttps://jingyan.baidu.com/article/1e5468f94694ac484861b77d.htmlNO2.xpath解析方式xpath案例:import requestsfrom lxml import etreedef demo1(): ""...原创 2019-07-03 15:56:54 · 261 阅读 · 0 评论 -
爬虫系列二:十天爬虫实战入门第八天——mysql数据库基础及与爬虫的搭配使用(一)
爬虫分为:抓取,解析,存储NO1.认识mysql数据库拓展说明:爬虫后续可以使用mongodb数据库存储数据mysql数据库:关系型数据库使用mysql数据库存储数据的好处:很方便的对数据进行管理和分析mysql数据库,是使用爬虫存储数据的一种形式!no2.安装mysql数据库服务安装教程:https://blog.csdn.net/qq_37050...原创 2019-07-03 15:58:17 · 339 阅读 · 0 评论 -
爬虫系列二:十天爬虫实战入门第九天——mysql数据库基础及与爬虫的搭配使用(二)
mysql数据库原创 2019-07-03 15:58:51 · 197 阅读 · 0 评论 -
爬虫系列二:十天爬虫实战入门第二天——爬虫的HTTP基础知识(二)
1.HTTP报文,请求报文和响应报文各个字段含义,比较全的文档介绍:https://blog.csdn.net/alexshi5/article/details/80379086什么是http?超文本传输协议,https://www.baidu.com/(https协议)①通用首部字段请求报文和响应报文两方都会使用的首部②请求首部字段(request headers...原创 2019-06-28 16:41:21 · 230 阅读 · 0 评论 -
爬虫系列二:十天爬虫实战入门第一天——爬虫介绍及爬虫的HTTP基础知识(一)
一.什么是网络爬虫?爬虫涉及到几个方面的知识:1.编写代码基础能力(系列一的课程)2.HTTP/HTTPS的基础知识3.xpath/beatifulSoup等解析网页内容4.re正则表达式5.数据库mysql基础学习6.网页基本结构7.涉及到数据清洗(NLP自然语言处理,一些简单算法设计——比如simhash进行文章去重)二.爬虫和反爬虫的持续战斗有爬...原创 2019-06-28 16:40:49 · 566 阅读 · 0 评论 -
爬虫系列二:十天爬虫实战入门第三天——爬虫的HTTP基础知识(三)
一.HTTP首部首部拓展二.确保Web安全的HTTPShttp缺点:不安全,可以加证书1.通信使用明文可能遭遇窃听(使用SSL)HTTP+SSL = HTTPS2.不验证通信方身份可能遭遇伪装(安装证书)银行主页登陆、高安全的支付登陆(12306买票)除了证书,有的还会提供一个动态码3.无法验证报文完整性,可能已遭篡改使用HTTPS(HTTP加上加密、认...原创 2019-06-28 16:42:18 · 156 阅读 · 0 评论 -
爬虫系列一:十天python爬虫基础学习实战第九天——python函数
知识回顾:1.字典:定义、增删改查2.元祖:定义、查(只能删除元祖所有元素)Python 函数函数是组织好的,可重复使用的,用来实现单一,或相关联功能的代码段。函数能提高应用的模块性,和代码的重复利用率。你已经知道Python提供了许多内建函数,比如print()。但你也可以自己创建函数,这被叫做用户自定义函数。定义一个函数你可以定义一个由自己想要功能的函数...原创 2019-06-03 15:08:13 · 341 阅读 · 0 评论 -
爬虫系列一:十天python爬虫基础学习实战第八天——python字典及元祖
上节课内容:1.字符串(定义、截取、转义)2.列表(定义、截取、增删改查)今天内容:1.字典2.元祖Python3字典d = {key1 : value1, key2 : value2 }创建字典"""案例1:定义一个字典d = {key1 : value1, key2 : value2 }字典是一个一个键值对的形式定义字典的方式:1....原创 2019-06-03 15:02:00 · 247 阅读 · 0 评论 -
爬虫系列一:十天python爬虫基础学习实战第七天——python字符串及列表
知识回顾:1.python字符串2.python列表"""案例1:如何定义一个字符串"""a = 'hello'a1 = "hello"a2 = """hello"""a3 = '''hello'''"""案例2:如何定义一个列表"""a1_list = []Python转义字符在需要在字符中使用特殊字符时,python用反斜杠(\)转义字符。如...原创 2019-06-03 14:55:02 · 540 阅读 · 0 评论 -
python高级系统知识之(二):异步处理
什么是异步及使用场景?写代码过程中,经常会碰到,某一个函数,可能需要执行很久,才会返回,那么,我们现在让程序在这里死等着让它执行完成,很影响代码性能,因此,需要借用异步处理!比如如下demodef my_func(): demo() passdef demo(): # long time import time import random ...原创 2019-05-08 11:30:15 · 242 阅读 · 0 评论 -
python高级系统知识之(三):可迭代对象,迭代器,生成器,yield的理解
1.for循环的原理就是看for后面是否是可迭代对象可迭代对象标配__iter__方法,str、list、set、dict、file、sockets对象都可以看作是容器,容器都可以被迭代(用在for,while等语句中),因此他们被称为可迭代对象for i in [1, 2, 3, 4, 5]: print(i)2.迭代器迭代器有的标配就是__iter__和__next...原创 2019-05-09 11:14:35 · 249 阅读 · 0 评论 -
python爬虫高阶:关于反编译
反编译安卓apk代码:https://blog.csdn.net/guolin_blog/article/details/49738023原创 2019-05-24 18:27:24 · 655 阅读 · 0 评论 -
Python基础知识之(一):python编码规范(Google)
分号不要在行尾加分号, 也不要用分号将两条命令放在同一行。行长度每行不超过80个字符以下情况除外:长的导入模块语句 注释里的URL不要使用反斜杠连接行。Python会将圆括号, 中括号和花括号中的行隐式的连接起来, 你可以利用这个特点. 如果需要, 你可以在表达式外围增加一对额外的圆括号。推荐: foo_bar(self, width, height, col...原创 2019-05-16 14:26:50 · 138 阅读 · 0 评论 -
python爬虫高阶:Scrapy-splash
暂时贴一个安装使用教程,后续会完善补充https://www.jianshu.com/p/8a8d0ceed8d3https://www.cnblogs.com/518894-lu/p/9067208.html测试的时候可以不用使用代码,网页测试:http://127.0.0.1:8050...原创 2019-05-21 17:05:26 · 262 阅读 · 0 评论 -
python爬虫高阶:无头浏览器的使用
1、phantomjs+selenium示例代码def phantomjs_url_test(url='http://gaia.imilive.cn/share.html?uid=0&videoid=116682377418697098&cc=TG45624'): dcap = dict(DesiredCapabilities.PHANTOMJS) dca...原创 2019-05-21 18:31:28 · 9533 阅读 · 0 评论 -
python高级系统知识之(四):进程管理supervisor
# TODO:线上服务可能因为种种原因导致挂掉怎么办?linux下的后台进程管理利器 supervisor每次文件修改后再linux执行 service supervisord restarthttps://www.cnblogs.com/zhoujinyi/p/6073705.html...原创 2019-05-27 14:40:37 · 135 阅读 · 0 评论 -
python面试大全:个人网络收集整理,每道题都认真思考研究过
https://www.cnblogs.com/chongdongxiaoyu/p/9054847.htmlhttps://baijiahao.baidu.com/s?id=1607651363840614527&wfr=spider&for=pc原创 2019-05-27 15:25:35 · 111 阅读 · 0 评论 -
python爬虫高阶:抓包工具及使用
charles抓包:https://blog.csdn.net/victor_cindy1/article/details/77947437注册:https://blog.csdn.net/ku20aijiu/article/details/80777232关于charles抓包可能遇到的问题:针对安卓7.0之后的系统,安卓不再信任用户自己安装的证书,需要特别处理(请提前下载e...原创 2019-06-02 15:09:19 · 2853 阅读 · 0 评论 -
python反爬技巧处理:mas和as及时间戳加密app、web站js请求数据加密
类似加密方式:抖音、快手、西瓜视频no1.一步步破解参数1.反编译app源代码:https://blog.csdn.net/guolin_blog/article/details/49738023案例:https://blog.csdn.net/alibe1991/article/details/89158849no2.app暴力破解no3.web站暴...原创 2019-06-13 18:49:21 · 967 阅读 · 1 评论 -
爬虫系列一:十天python爬虫基础学习实战第一天——windows环境安装及第一个python程序
免费课程地址:https://study.163.com/course/courseMain.htm?courseId=1006075240&share=2&shareId=10175998111 爬虫能干什么事及爬虫未来发展我给出的定义:通过写程序的方式,从互联网上批量抓取数据理论上,人能够看到的公开信息,都可以通过爬虫抓取(取决于反爬虫的难度)爬虫和反...原创 2019-06-02 18:14:57 · 1291 阅读 · 0 评论 -
python各种有趣的模块
1.北京实时公交#https://github.com/wong2/beijing_buspip install -r requirements.txt 安装依赖python manage.py build_cache 获取离线数据,建立本地缓存#项目自带了一个终端中的查询工具作为例子,运行: python manage.py cli>>> from beij...原创 2019-06-13 21:03:06 · 970 阅读 · 0 评论 -
爬虫系列一:十天python爬虫基础学习实战第二天——python基础语法
第一天已经学会了基本的开发环境的安装,今天,可以开始学习如何写代码了,朋友们!回顾:1.爬虫能干什么?2.python环境安装3.pycharm安装(IDE)4.简单打印输出hello world5.命令行打印输出hello world今日主要内容点:1.python基础语法2.python变量3.python数据类型(知识来源:菜鸟编...原创 2019-06-03 11:49:40 · 961 阅读 · 0 评论 -
爬虫系列一:十天python爬虫基础学习实战第三天——python运算符
昨天学习了python基础语法,试着回忆一下知识点!今天,尝试学习python运算符!回顾昨天内容:python基础语法 python变量 python数据类型(numbers,string,list,tuple,dict)内容提要:算术运算符 比较运算符 赋值运算符 位运算符 逻辑运算符 成员运算符 身份运算符什么是运算符?本章节主要说明...原创 2019-06-03 14:19:10 · 485 阅读 · 0 评论 -
爬虫系列一:十天python爬虫基础学习实战第四天——python条件语句
Python条件语句Python条件语句是通过一条或多条语句的执行结果(True或者False)来决定执行的代码块。可以通过下图来简单了解条件语句的执行过程:Python程序语言指定任何非0和非空(null)值为true,0 或者 null为false。Python 编程中 if 语句用于控制程序的执行,基本形式为:if 判断条件: 执行语句……else: ...原创 2019-06-03 14:28:47 · 593 阅读 · 0 评论 -
爬虫系列一:十天python爬虫基础学习实战第五天——python循环语句
回顾昨天的条件语句的知识,学习今天的循环语句!昨天内容回顾:if...else...if...ifel...else...Python循环语句本章节将向大家介绍Python的循环语句,程序在一般情况下是按顺序执行的。编程语言提供了各种控制结构,允许更复杂的执行路径。循环语句允许我们执行一个语句或语句组多次,下面是在大多数编程语言中的循环语句的一般形式:...原创 2019-06-03 14:42:40 · 1106 阅读 · 0 评论 -
爬虫系列一:十天python爬虫基础学习实战第六天——python模块
Python 模块Python 模块(Module),是一个 Python 文件,以 .py 结尾,包含了 Python 对象定义和Python语句。模块让你能够有逻辑地组织你的 Python 代码段。把相关的代码分配到一个模块里能让你的代码更好用,更易懂。模块能定义函数,类和变量,模块里也能包含可执行的代码。import 语句模块的引入模块定义好后,我们可...原创 2019-06-03 14:50:29 · 245 阅读 · 0 评论 -
爬虫系列二:十天爬虫实战入门第十天——mysql数据库基础及与爬虫的搭配使用(三)
mysql数据库原创 2019-07-27 18:59:27 · 152 阅读 · 0 评论