自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(47)
  • 收藏
  • 关注

转载 【归纳】MySQL基础

基础知识MySQL是一个关系型数据库管理系统(RDBMS)RDBMS(Relational Database Management System)的特点:数据以表格的形式出现每行为各种记录名称每列为记录名称所对应的数据域许多的行和列组成一张表单若干的表单组成database数据库中的一些术语:元组:元组(tuple)是关系数据库中的基本概念,关系是一张表,表...

2019-07-10 10:26:00 148

转载 Python基础查缺补漏

在这篇文章中,我将归纳一些自己现在可能还不够熟悉的Python基础知识/特性切片官方文档 - slicePython可切片对象的索引方式:切片操作基本表达式:object[start_index:end_index:step]step:正负数均可,其绝对值大小决定了切取数据时的‘‘步长”,而正负号决定了“切取方向”,正表示“从左往右”取值,负表示“从右往左”取值。...

2019-07-08 15:54:00 145

转载 爬虫的法律风险

《刑法》对网络爬虫的定罪依据《刑法》第 285 条,非法获取计算机信息系统数据罪。获取该计算机信息系统中存储、处理或者传输的数据,或者对该计算机信息系统实施非法控制,处三年以下有期徒刑或者拘役,并处或者单处罚金; 最高处七年有期徒刑并处罚金。《刑法》第285条是对爬取数据的主要定罪依据。判例1.数据拥有者有证据能够举证你的数据是抓取来的。如下,今日头条对起诉上海晟品法院宣判结果...

2019-07-05 07:44:00 1006

转载 【归纳】室内空气污染相关知识

基本知识甲醛是最常见也是最难缠的室内空气污染源家具的甲醇释放是非常长期的(数十年以上),目前不存在一劳永逸地解决甲醛污染的方法室内的甲醛浓度与 温度 和 空气封闭时长 正相关室内甲醛主要来源于人造板材,更准确的说是其中用来粘合板材的三醛胶其他来源包括:壁纸,墙布,涂料,油漆等甲醛的危害甲醛与白血病患病率无显著相关已确定的危害:影响呼吸系统——引起或加重气管炎...

2019-06-30 19:46:00 157

转载 租房注意事项归纳

看房声音及周边环境看房看两次,白天看房间及周围环境,晚上看有无噪音5-7层的老楼往往隔音较差。临近马路,广场,商场的房子,晚上会有噪音。新小区周围可能会有装修噪音合租的户数越少越好,尽量不要跟带孩子/长辈的人合租。合租时尽量不选有大客厅,或客厅里有电视的房子(因为电视会有噪音)了解周围是否有快递代收点费用沟通检查冰箱空调是否制冷,热水器是否能用,家具是否破损提前沟通...

2019-06-26 06:48:00 136

转载 个人技术栈管理

本文是我个人技术栈的总结规划。本文将来未来数年内不断更新。本文中对熟练度的定义标准:0.陌生 -> 只了解基本概念和用途1.了解 -> 做过练习项目,有查文档的能力2.熟悉 -> 经历生产环境,有熟练应用能力3.精通 -> 理解底层原理,有造轮子的能力下文中统一用数字来表示该技术栈掌握程度的现状及目标软件工程【1/2】经典算法及数据结构...

2019-06-25 20:24:00 236

转载 基础算法知识梳理

在这篇文章中,我们将归纳基础算法的相关知识和练习路径参考资料:azl397985856 - leetcode题解,记录自己的leetcode解题之路转载于:https://www.cnblogs.com/lokvahkoor/p/11067732.html...

2019-06-22 09:22:00 144

转载 【归纳】面试中常见的python基础知识

在这篇文章中,我们将归纳一些面试中常见的python基础知识:python中的深浅拷贝浅拷贝:数据半共享(复制其数据独立内存存放,但只针对第一层数据)l1 = [1,2,3,[11,22,33]]l2 = l1.copy() # 浅拷贝,只拷贝第一层print(l2) #[1,2,3,[11,22,33]]l2[3][2]='aaa' # 数据中的第二层是共享内存的...

2019-06-20 06:44:00 185

转载 【归纳】Python装饰器

参考资料:详解Python的装饰器装饰器本质上是一个Python函数,它可以让其他函数在不需要做任何代码变动的前提下增加额外功能,装饰器的返回值也是一个函数对象。有了装饰器,我们就可以抽离出大量与函数功能本身无关的雷同代码并继续重用。def debug(func): def wrapper(*args, **kwargs): # 参数兼容 pr...

2019-06-11 11:04:00 104

转载 【归纳】Python中的协程,进程,线程

本文主要归纳3个内容:Python协程Python多进程Python多线程Python协程基本协程机制介绍参考资料:廖雪峰 - Python协程Python协程深入理解协程,又称微线程,纤程。英文名Coroutine协程看上去也是子程序,但执行过程中,在子程序内部可中断,然后转而执行别的子程序,在适当的时候再返回来接着执行。(不同于函数调用)协程相...

2019-06-11 00:57:00 103

转载 【知识归纳】字体编码

参考资料:知乎 - 很多网站源码都是分为 GBK 和 UTF-8 版,为什么要同时开发两种?八位的字节一共可以组合出256(2的8次方)种不同的状态ANSI:一个字符对应一个字节,其中从0开始的32种字节状态被称为“控制码”,之后一直到127号字节状态用来表示所有的空格、标点符号、数字和大小写字母拓展字符集:在ANSI的基础上拓展,把128-255号字节状态赋予了新的字母、符...

2019-06-03 20:36:00 268

转载 在Scrapy中实现随机UA,代理IP,出错重试

在这篇文章中,我们使用Scrapy中的下载中间件来实现标题里的三个功能参考:Scrapy文档 - downloader middleware注意所有的下载中间件都需要在settings.py中启用:DOWNLOADER_MIDDLEWARES = { '项目名称.middlewares.下载中间件类名': 启动优先级(数字),}默认的启动优先级见:downloade...

2019-06-03 09:30:00 241

转载 Scrapy中的item和pipline

ItemItem文档创建item在items.py中创建item,示例如下:import scrapyclass Product(scrapy.Item): name = scrapy.Field() price = scrapy.Field()item的api与python中的字典类似,Field就像字典中预定义好的key更多item的用法请查阅文档P...

2019-05-31 16:18:00 224

转载 应对字体反爬

参考资料:反爬终极方案总结—字体反爬 - 知乎python解析字体反爬 - CSDN博客常见的字体反爬就是用css自定义字体来替换网页中的关键数据,使爬虫无法正常解析。这里以58同城为例:既然是字体替换,那么前端就一定要加载相关的字体文件。因此,在网页中的head标签下,我们可以找到一段base64加密的字符串:这段字符可以转化为一个ttf文件:import base...

2019-05-31 09:38:00 149

转载 调用jupyter notebook下ipynb程序函数的简单方法

本文参考:调用jupyter notebook文件内的函数一种简单方法首先,创建一个python文件,例如Ipynb_importer.py,代码如下:import io, os,sys,typesfrom IPython import get_ipythonfrom nbformat import readfrom IPython.core.interactiveshel...

2019-05-23 14:35:00 932

转载 【先验知识归纳】浅谈程序员的职业生涯规划

本文参考:程序员的好日子什么时候才到头? - 程序人生程序员群体壮大的原因是IT相关的业务需求在不断地革新和扩大:科学计算(卡带程序)->小型机(CS程序)->互联网(Web程序)->移动互联->大数据/AI回顾这段历史,还有一个很值得玩味的地方:市场一直对程序员的需求强劲,可靠的供给却严重不足程序员群体是个创作群体,创作群体的特点是突出的个体,其价...

2019-05-15 19:59:00 150

转载 利用Redis和Flask维护一个通用爬虫代理池

1 环境依赖Redis / aiohttp / requests / redis-py / Flask2 模块架构2.1 存储模块负责代理池的存储要求数据去重要求动态实时地处理每个代理因此我们采用Redis的Sorted Set作为存储框架2.2 获取模块代理池系统的入口负责捕获待检测和存储的代理ip,把结果传递给存储模块2.3 检测模块负责定时检测...

2019-05-07 21:01:00 200

转载 在scrapy_splash中加载本地Cookies

Splash→Scrapy:首先,lua脚本中要返回Cookies:return {cookies = splash:get_cookies()}然后,在spider中调用response.cookiejar即可得到返回的CookiesScrapy→Splash把Cookies作为参数传递到SplashRequest()中:def start_requests(self):...

2019-05-03 15:38:00 631

转载 Splash对接Scrapy

1. 安装Splash:安装dockerdocker拉取Splash镜像:docker pull scrapinghub/splash启动Splash:docker run -p 8050:8050 scrapinghub/splash2. 安装并配置scrapy-splash:https://github.com/scrapy-plugins/scrapy-splash在...

2019-05-01 21:58:00 127

转载 Selenium和pymongo的简单复习

import pymongoclient = pymongo.MongoClient(host='localhost',port=27017)db = client.testcollection = db.booksimport seleniumfrom selenium import webdriverimport timeoptions = webdriver.Fir...

2019-04-28 16:16:00 96

转载 Scrapy框架

scrapy官方文档Scrapy架构Engine:引擎,负责整个系统的数据流处理,触发事务,是整个框架的核心Scheduler:调度器,负责组织请求队列Downloader:下载器,负责发送请求,下载内容Spiders:蜘蛛,负责解析策略Item、Pipline:管道组件,负责处理spider中获取到的数据,包括过滤、验证和存储等Downloader Middleware...

2019-04-27 23:25:00 97

转载 动态渲染页面爬取-Selenium & Splash

模拟浏览器的动机JS动态渲染的页面不止Ajax一种很多网页的Ajax接口含有加密参数,分析其规律的成本过高通过对浏览器运行方式的模拟,我们将做到:可见即可爬Python中常用的模拟浏览器运行的库为Selenium和SplashSplash一个很不错的介绍:https://www.jianshu.com/p/2b04f5eb5785官方文档:https://splash...

2019-04-26 18:15:00 545

转载 模拟Ajax请求实现动态数据爬取

Ajax的基本原理以菜鸟教程的代码为例:XMLHTTPRequest对象是JS对Ajax的底层实现: var xmlhttp; if (window.XMLHttpRequest) { // IE7+, Firefox, Chrome, Opera, Safari 浏览器执行代码 xmlhttp=new XMLHttpRe...

2019-04-25 07:59:00 436

转载 利用request和regex抓取猫眼电影排行

import requestsimport reimport timedef get_one_page(url): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:34.0) Gecko/20100101 Firefox/34.0' # User-Agent可以在网上搜一...

2019-04-24 18:07:00 115

转载 常用数据库:MongoDB

下载地址:https://www.mongodb.com/download-center/community安装及配置指南:https://docs.mongodb.com/manual/installation/#tutorial-installationpymongo文档:https://api.mongodb.com/python/current/index.htmldb操...

2019-04-24 17:02:00 109

转载 【解析归纳】常用解析策略

CSS选择器CSS 选择器参考手册XPathXPath也叫XML路径语言,用来搜索XML文档w3cschool教程XPath语法速记在python中,一般使用lxml库来实现XPath解析:from lxml import etreehtml = etree.parse('./test.html', etree.HTMLParser()) # 加载目标HTML...

2019-04-23 16:00:00 165

转载 英文阅读积累 - 2019年4月

2019年4月24日err on the side of... 意为“宁愿过于……;力求”err /ɜː/ 不及物动词,意为“犯错误”forge /fɔːdʒ/ 及物动词,意为“(尤指努力地)开创;开拓”dawn on sb 意为“开始明白”perimeter /pə'rɪmɪtə/ 可数名词,意为“周边;边缘”in tow 意为“……作为同伴;有…紧跟在后”tow /t...

2019-04-20 20:37:00 323

转载 【零碎的想法】

【从下往上写,新想法放在最上方】2019-07-24:【AI】想了想,还是觉得NLP和KG才是AI未来最有潜力的方向。因为人类的知识最终还是以语言的形式组织的,AI只有彻底理解人类的语言,才能拥有无限的可能。2019-05-03:【沟通】非暴力沟通:1. 陈述事实 2. 表达感受 3. 描述解决方案注意顺序不能改变!2019-05-02:【道德】道德是群体利益妥协的...

2019-04-13 23:20:00 93

转载 【归纳】正则表达式及Python中的正则库

正则表达式正则表达式30分钟入门教程runoob正则式教程正则表达式练习题集(附答案)元字符\b代表单词的分界处,在英文中指空格,标点符号或换行例子:\bhi\b可以用来匹配hi这个单词,且不会匹配到him,china或sushi.注意\b并不匹配任何字符,它只匹配一个位置元字符.代表除了换行符以外的任意字符元字符*代表数量:它指定*前边的内容可以连续重复使用任意次...

2019-04-13 16:30:00 383

转载 【读书笔记】贪婪的大脑

第一章 哲学视域下的意识难题结论:生理变化对人的意识具有决定性的影响,人的思想不过是大脑生理活动的产物论据1:CT扫描大脑,可以发现人的思维活动与大脑特定脑区的活跃状态存在关联论据2:大量现代医学实践证明:当大脑发生生理变化后,人的思想(性格,认知能力,etc.)也会随之发生变化论据3:人造神经网络模型(深度学习)在多方面显现出人脑的特性疑问:人的精神活动在多大程度上受生...

2019-04-11 21:56:00 90

转载 【归纳】爬虫基本库的使用

urlliburllib是Python3内置的HTTP请求库,它包含4个模块request:HTTP请求模块,用来模拟发送请求error:异常处理模块parse:工具模块,提供了许多URL处理方法,包括拆分,解析,合并等robotparser:用于识别网站的爬虫证书,该模块一般很少使用发送请求urllib.request模块提供了最基本的构造HTTP请求的方法r...

2019-04-08 16:04:00 74

转载 【归纳】爬虫基础知识

HTTP基本原理URL:网址,用于唯一定位并访问网络资源超文本:文本+标签,HTML就是典型的超文本HTTP:超文本传输协议,HTTPS是HTTP的安全版HTTP请求过程:在开发者模式下访问任意网址(如www.baidu.com),即可看到HTTP交互过程完整的客户端请求包含请求方法、请求头和请求体常见的请求方法:GET, POST请求头(Request Heade...

2019-04-07 15:13:00 106

转载 爬虫工程师JD归纳

核心能力归纳负责:多平台信息的抓取,清洗和分析工作要求:熟悉常用开源爬虫框架,如 scrapy / pyspider
了解基于Cookie的登录原理,熟悉常用的信息抽取技术,如正则表达式、XPath熟悉常见的反爬虫技术,有一定的对抗能力分布式爬虫架构经验*字节跳动 python爬虫工程师 22-40k负责:设计和开发分布式网络爬虫系统,进行多平台信息的抓取和分析...

2019-04-02 15:32:00 347

转载 【知识归纳】自律

参考:自律一点也不难-知乎专栏1.如何让行为符合理性?该问题可分解为:什么影响了我们的行为?什么行为符合长期利益?如何具体地运用前两个问题的回答来指导自律?2.什么影响了我们的行为?就像:输入→模型→输出行为的产生也遵循类似的模式:信息→大脑→行为因此,存在两个控制行为的思路:控制信息的输入调整大脑的状态2.1控制信息的输入任何信息输入...

2019-03-31 16:03:00 124

转载 【先验知识归纳】Flask快速入门

本文参考:快速入门 — Flask 0.10.1 文档路由Flask使用route修饰器来关联URL与程序函数:@app.route('/') def hello_world(): return 'Hello World!'动态路由在route的参数中增加<variable_name>,可使函数获得URL中的参数信息,比如:@app.route('/...

2019-03-10 15:38:00 69

转载 【先验知识归纳】没有银弹——伴随软件工程的长期问题

本文参考:没有银弹'没有银弹'的含义:没有任何一种单纯的技术或管理上的进步,能够独立地承诺在十年内大幅度地提高生产率、可靠性和简洁性。软件工程中的根本问题和次要问题根本任务-设计:打造构成抽象软件实体的复杂概念结构次要任务-实现:使用编程语言表达这些抽象实体,在空间和时间限制内将它们映射成机器语言没有银弹更多的是指设计上的困难(也就是架构师的工作)根本问题为什么那么...

2019-03-09 14:45:00 386

转载 LeetCode前100题(EASY难度)

1 Two SumGiven an array of integers, return indices of the two numbers such that they add up to a specific target.You may assume that each input would have exactly one solution, and you may no...

2019-03-02 09:40:00 257

转载 【待填坑】关于做生意的伦理价值观

我不喜欢把稻草卖成金条的人,哪怕这种人在市场上非常受欢迎。我们不需要!难道我们真的习惯了尔虞我诈的生活吗?我们能不能有一个公司真的值得你信赖?真的是你的朋友呢?——雷军转载于:https://www.cnblogs.com/lokvahkoor/p/10441135.html...

2019-02-27 00:14:00 251

转载 【先验知识归纳】关于投资

多元投资的稳定性优于单一投资:多元资产组合(股票/债券/房地产信托)> 指数基金 > 个股来源:炒股如何避免高点买入? - 伍治坚的回答 - 知乎转载于:https://www.cnblogs.com/lokvahkoor/p/10424422.html...

2019-02-23 21:47:00 129

转载 【待填坑】谈谈技术人员的伦理价值观

技术人员在使用自己所掌握的技术时应该有基本的道德准则,在这样一个时代,技术人员个人信仰的建立极为重要,希望广大技术人员能够有“为天地立心,为生民立命,为往圣继绝学,为万世开太平”这样的信仰。我们不主张为他人的幸福牺牲自己,但是我们希望每个人在追求个人幸福的时候,能够不以损害他人的幸福为基础。----秀野堂主为什么“每个人在追求个人幸福的时候,能够不以损害他人的幸福为基础”?是因为人...

2019-02-23 16:06:00 2473

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除