小结
文章平均质量分 68
MXuDong
假如有一天我变成了流氓,请告诉别人我曾经纯真过!
展开
-
算法工程师(机器学习)部分面试题(转载参考)
其他参考:https://www.jianshu.com/p/980efc8105b2?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendationhttps://www.jianshu.com/p/4a7f7127eef1?utm_campaign=male...转载 2019-01-27 13:32:46 · 8268 阅读 · 0 评论 -
ubuntu 安装和卸载软件
ubuntu中软件包的概念相当于通常意义上理解的软件。转载自http://www.cnblogs.com/forward/archive/2012/01/10/2318483.html,感谢原创作者。 一、Ubuntu中软件安装方法1、APT方式(1)普通安装:apt-get install softname1 softname2 …;(2)修复安装:apt-get -f ...转载 2018-08-21 20:44:36 · 1709 阅读 · 0 评论 -
api接口设计相关总结
写过不少接口,不过一直没有去总结,网上搜了一下,大同小异,此文根据以下几个链接整理修改:https://segmentfault.com/a/1190000004051246http://blog.sqrtthree.com/2015/09/08/api/http://keeganlee.me/post/architecture/20160107https://www.hutuseng....转载 2018-08-21 20:05:24 · 1505 阅读 · 0 评论 -
常用的sql语句
参考:https://www.cnblogs.com/W-Kr/p/5313325.html https://blog.csdn.net/example440982/article/details/52089090一、基础1、说明:创建数据库CREATE DATABASE database-name 2、说明:删除数据库drop database dbname3、说明...转载 2018-08-23 22:51:31 · 459 阅读 · 0 评论 -
进程间的几种通信方式的比较和线程间的几种通信方式
几种进程间的通信方式(1) 管道(pipe):管道是一种半双工的通信方式,数据只能单向流动,而且只能在具有血缘关系的进程间使用。进程的血缘关系通常指父子进程关系。(2)有名管道(named pipe):有名管道也是半双工的通信方式,但是它允许无亲缘关系进程间通信。(3)信号量(semophore):信号量是一个计数器,可以用来控制多个进程对共享资源的访问。它通常作为一种锁机制,防止某进...原创 2018-08-27 20:20:54 · 965 阅读 · 0 评论 -
关系型数据库与非关系型数据库的对比分析(优缺点,应用,区别等)
当前主流的关系型数据库有Oracle、DB2、Microsoft SQL Server、Microsoft Access、MySQL等。非关系型数据库有 NoSql、Cloudant。 ==========================优缺点分析如下===============================================nosql和关系型数据库比较?优点...原创 2018-08-08 20:57:56 · 38588 阅读 · 1 评论 -
数据分析之Pandas的常见用法
一、生成数据表1、首先导入pandas库,一般都会用到numpy库,pd.read_csv(filename_path):从CSV文件导入数据pd.read_table(filename_path):从限定分隔符的文本文件导入数据pd.read_excel(filename_path):从Excel文件导入数据pd.read_sql(query, connection_object):...原创 2018-08-08 17:38:21 · 854 阅读 · 1 评论 -
单点登录原理与简单实现 以及单点登录的三种实现方式
单点登录原理与简单实现一、单系统登录机制1、http无状态协议 web应用采用browser/server架构,http作为通信协议。http是无状态协议,浏览器的每一次请求,服务器会独立处理,不与之前或之后的请求产生关联,这个过程用下图说明,三次请求/响应对之间没有任何联系 但这也同时意味着,任何用户都能通过浏览器访问服务器资源,如果想保护服务器的某些资源,必须限制浏览器...转载 2018-08-07 21:46:44 · 9769 阅读 · 0 评论 -
爬虫与反爬虫(斗智斗勇)
一、爬与反爬爬虫目的:1.获取数据。填充公司的数据库,可以用来做数据测试。也可以直接登录2.通过爬虫爬取大量的数据。用来制作搜索引擎3.通过爬虫爬取数据,做数据采集和数据分析的工作4.通过爬虫爬取数据,用于做训练模型,做人工智能机器人训练反爬虫目的:1.针对一些初级的爬虫,简单粗暴,不会考虑服务器压力,会导致服务器瘫痪2.针对失控的爬虫,爬虫的数量比较多,忘记关闭爬...原创 2018-08-14 09:38:34 · 1985 阅读 · 0 评论 -
Python中os与sys两模块的区别
转载:http://www.itcast.cn/news/20160831/1848418827.shtml os与sys模块的官方解释如下: os: This module provides a portable way of using operating system dependent functionality. 这个模块提供了一种方便的使用操作系统函数的方法。...转载 2018-07-21 15:02:27 · 108 阅读 · 0 评论 -
python 时间类型和相互转换(附:示例代码)
菜鸟教程地址:http://www.runoob.com/python/python-date-time.htmlpython 时间类型和相互转换time有四种类型(time, datetime, string, timestamp)1. time stringstring是最简单的表示time的方式如以下代码生成的即为string:>>> import time>>...原创 2018-07-15 11:54:10 · 1597 阅读 · 0 评论 -
Python解析Json数据小结
菜鸟地址:http://www.runoob.com/python3/python3-json.html点击打开链接参考博客:https://blog.csdn.net/t8116189520/article/details/78727971点击打开链接JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,易于人阅读和编写。JSON 函数使用 JSON 函数...原创 2018-07-15 11:23:57 · 316 阅读 · 0 评论 -
一次完整的HTTP请求过程
当我们在浏览器的地址栏输入 www.linux178.com ,然后回车,回车这一瞬间到看到页面到底发生了什么呢? 以下过程仅是个人理解:域名解析 --> 发起TCP的3次握手 --> 建立TCP连接后发起http请求 --> 服务器响应http请求,浏览器得到html代码 --> 浏览器解析html代码,并请求html代码中的资源(如js、css、图片等) -...转载 2018-09-01 14:30:29 · 901 阅读 · 0 评论 -
找回密码功能设计
背景一个大型网站平台,用户自主注册难免会有用户忘记密码,因此需要提供找回密码功能。本方案是通过邮箱找回密码。 需要的表结构找回密码表(FindPwdRecord): 字段名 类型 描述 备注 ID string 主键 ...原创 2018-09-01 15:13:26 · 13704 阅读 · 0 评论 -
pytorch torch matplotlib openCV-python pytorch0.4 numpy中文文档参考地址
pytorch torch matplotlib openCV-python pytorch0.4 numpy中文文档参考地址参考地址: https://ptorch.com/news/50.html跳转 地址:PytorchTorchPytorch视频MatplotlibOpenCV-PythonPytorch0.4Numpy...原创 2019-01-13 18:19:21 · 841 阅读 · 0 评论 -
Gensim介绍
参考:https://blog.csdn.net/duinodu/article/details/76618638https://www.cnblogs.com/iloveai/p/gensim_tutorial.htmlGensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,LDA,和word2...原创 2019-01-13 18:09:07 · 2892 阅读 · 1 评论 -
Python读取大文件与内存占用检测(常用的分步调试pdb)
大文件读取问题顺便记录一下vim的配置:https://blog.csdn.net/sinat_33741547/article/details/74781591https://blog.csdn.net/zwbill/article/details/78475705这个很简单但是这里重复写一下,主要是记录一下后面的内存检测和分部调试!!!1.read()与readlines():...原创 2019-01-13 17:26:03 · 1142 阅读 · 1 评论 -
Numpy大纲——函数,属性,运算等
NumPy是高性能科学计算和数据分析的基础包。部分功能如下: ndarray, 具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。 用于对整组数据进行快速运算的标准数学函数(无需编写循环)。 用于读写磁盘数据的工具以及用于操作内存映射文件的工具。 线性代数、随机数生成以及傅里叶变换功能。 用于集成C、C++、Fortran等语言编写的代码的工具。 首...原创 2018-12-08 21:09:23 · 383 阅读 · 0 评论 -
Python之Numpy数组拼接--组合--连接--切分--变形(stack,hstack,vstack,dstack,vsplit,concatenate等)
Python之Numpy数组拼接,组合,连接转自:https://www.douban.com/note/518335786/?type=likestack(),hstack(),vstack() dstack() vsplit()、concatenate()参考(推荐):https://blog.csdn.net/csdn15698845876/article/details/73...原创 2018-12-08 20:55:39 · 2344 阅读 · 0 评论 -
Python的Tqdm模块——进度条配置
tqdm官网地址:https://pypi.org/project/tqdm/Github地址:https://github.com/tqdm/tqdm简介 Tqdm 是一个快速,可扩展的Python进度条,可以在 Python 长循环中添加一个进度提示信息,用户只需要封装任意的迭代器 tqdm(iterator)。 总之,它是用来显示进度条的,很漂亮,使用...原创 2018-10-04 22:35:54 · 127998 阅读 · 19 评论 -
Linux:PS命令详解与使用
Linux:PS命令详解与使用参考:http://www.mamicode.com/info-detail-1704186.html 要对进程进行监测和控制,首先必须要了解当前进程的情况,也就是需要查看当前进程,ps命令就是最基本进程查看命令。使用该命令可以确定有哪些进程正在运行和运行的状态、进程是否结束、进程有没有僵尸、哪些进程占用了过多的资源等等.总之大部分信息都是可以通过执行该命令...原创 2018-09-01 16:03:01 · 241 阅读 · 0 评论 -
linux tail命令的使用方法详解
linux tail命令的使用方法详解参考:http://man.linuxde.net/tail本文介绍Linux下tail命令的使用方法。linux tail命令用途是依照要求将指定的文件的最后部分输出到标准设备,通常是终端,通俗讲来,就是把某个档案文件的最后几行显示到终端上,假设该档案有更新,tail会自己主动刷新,确保你看到最新的档案内容。一、tail命令语法tail [...原创 2018-09-01 15:58:59 · 181 阅读 · 0 评论 -
linux中grep命令的用法
linux中grep命令的用法参考:http://man.linuxde.net/grep作为linux中最为常用的三大文本(awk,sed,grep)处理工具之一,掌握好其用法是很有必要的。首先谈一下grep命令的常用格式为:grep [选项] ”模式“ [文件]grep家族总共有三个:grep,egrep,fgrep。常用选项: -E :开启扩展(Extend)...原创 2018-09-01 15:53:40 · 156 阅读 · 0 评论 -
linux之find命令详解
linux之find命令详解参考:http://man.linuxde.net/find查找文件find ./ -type f查找目录find ./ -type d查找名字为test的文件或目录find ./ -name test查找名字符合正则表达式的文件,注意前面的‘.*’(查找到的文件带有目录)find ./ -regex .*so.*\.gz查找目录并列出目录下的文...原创 2018-09-01 15:44:05 · 130 阅读 · 0 评论 -
Linux top命令的用法详细详解
Linux top命令的用法详细详解首先介绍top中一些字段的含义: VIRT:virtual memory usage 虚拟内存1、进程“需要的”虚拟内存大小,包括进程使用的库、代码、数据等2、假如进程申请100m的内存,但实际只使用了10m,那么它会增长100m,而不是实际的使用量RES:resident memory usage 常驻内存1、进程当前使用的内存大小,但不...原创 2018-09-01 15:42:04 · 205 阅读 · 0 评论 -
sql之left join、right join、inner join的区别
sql之left join、right join、inner join的区别left join(左联接) 返回包括左表中的所有记录和右表中联结字段相等的记录 right join(右联接) 返回包括右表中的所有记录和左表中联结字段相等的记录inner join(等值连接) 只返回两个表中联结字段相等的行举例如下: -----------------------------------...原创 2018-09-01 15:32:03 · 116 阅读 · 0 评论 -
Python创建目录文件夹并对数据进行读写操作
参考文件夹操作命令总结:https://blog.csdn.net/qq_33472765/article/details/80841142Python对文件的操作还算是方便的,只需要包含os模块进来,使用相关函数即可实现目录的创建。注意:新创建一个文件夹(os.mkdirs),并进入(os.chdirs),进行相关操作后,最后要退出(os.chdirs('../'))该文件,以便于下一次...原创 2018-07-28 16:50:49 · 6656 阅读 · 1 评论 -
Django中的ORM操作——模型类数据查询
1.查询基本格式及理解: 类名.objects.[查询条件] 例如我们要查询数据库中一张表(bookinfo)的所有数据,sql语句为:select * from bookinfo, 对应模型类的操作是: BookInfo.objects.all() cd到当前django项目的目录下,进入携带django环境的python解释器进行测试操作: $ python ...原创 2018-07-28 16:15:55 · 570 阅读 · 0 评论 -
Python爬虫数据提取方式——-selenium爬虫框架中的数据提取方式
介绍:selenium测试框架在爬虫中的应用:网页中通过js渲染的数据,爬虫的解决办法: 1. 去静态源码中查找<script>var infolist = {'name':'123', }</script> 2. 抓包或者网络请求中,查看是否有类似与json的get请求,直接请求这个json的API拿到数据 3. 使用phantomjs/seleniu...原创 2018-06-28 15:36:10 · 3751 阅读 · 0 评论 -
selenium窗口操作以及使用selenium定位iframe内部标签元素
1. 标签内部存在iframe,普通的方式无法直接定位到iframe内部的标签元素。需要切换;2. 一个浏览器对象,存在多个标签选项卡。需要切换。定位iframe内部标签元素登录QQ邮箱为列:#import timefrom selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.we...原创 2018-06-23 17:19:25 · 5617 阅读 · 0 评论 -
Python爬虫数据提取方式——cssselector样式选择器
cssselector:和xpath是使用比较多的两种数据提取方式。cssselector是css样式选择器实现的!scrapy爬虫框架:支持xpath/csspyspider爬虫框架:支持PyQuery,也是通过css样式选择器实现的HTML代码示例:html = """ <div id='content'> <ul class='list'> ...原创 2018-06-28 15:12:36 · 11239 阅读 · 0 评论 -
Python爬虫数据提取方式——使用xpath提取页面数据
xpath:跟re,bs4,pyquery一样,都是页面数据提取方法。 xpath是根据元素的路径来查找页面元素。安装lxml包:pip install lxmlHTML实例:html = """ <div id='content'> <ul class='list'> <li class=...原创 2018-06-12 22:46:22 · 22029 阅读 · 1 评论 -
Python爬虫数据提取方式——使用bs4提取数据
爬虫网络请求方式:urllib(模块), requests(库), scrapy, pyspider(框架)爬虫数据提取方式:正则表达式, bs4, lxml, xpath, css测试HTML代码:首先导入from bs4 import BeautifulSoup序列化HTML代码# 参数1:序列化的html源代码字符串,将其序列化成一个文档树对象。# 参数2:将采用 lxml 这个解析库来序...原创 2018-06-28 11:53:17 · 10838 阅读 · 1 评论 -
Python爬虫数据提取方式——正则表达式 re (附加实例:爬取csdn首页内容)附:表达式全集(正则表达式手册)
正则表达式手册地址:http://tool.oschina.net/uploads/apidocs/jquery/regexp.html小点:爬虫中主要使用—— (.*?) .*? .*re: 用于提取字符串内容的模块。爬虫过程:1> 创建正则对象;2> 匹配查找;3> 提取数据保存;爬虫三个步骤:1.向页面发送请求,获取源代码(都是静态页面的...原创 2018-06-23 17:56:03 · 3611 阅读 · 0 评论 -
Python爬虫数据提取方式——使用PyQuery查找元素
html = """ <div id='content'> <ul class='list'> <li class='one'>One</li> <li class='two'>Two</li> <li原创 2018-06-28 11:18:45 · 12469 阅读 · 2 评论 -
Python中yield的理解与使用
总结:通常的for...in...循环中,in后面是一个数组,这个数组就是一个可迭代对象,类似的还有链表,字符串,文件。它可以是mylist = [1, 2, 3],也可以是mylist = [x*x for x in range(3)]。它的缺陷是所有数据都在内存中,如果有海量数据的话将会非常耗内存。生成器是可以迭代的,但只可以读取它一次。因为用的时候才生成。比如 mygenerator = (...原创 2018-06-28 10:57:04 · 113860 阅读 · 7 评论 -
数据保存的方法(数据库《MySQL,Mongodb等》、Excel表格、文本和图片保存到本地文件夹)
数据库保存: MySQL数据库》导入:import pymysql创建连接数据库: db = None cursor = None def connect_db(self): #user 、password、db、port都是自己设置MySQL数据库时自己设定的值 self.db = pymysql.connect(host='localho...原创 2018-06-26 23:03:19 · 1920 阅读 · 0 评论 -
Python多进程并发操作中进程池Pool的应用(文章最后:爬虫实际操作的中Pool的使用)
Pool类在使用Python进行系统管理时,特别是同时操作多个文件目录或者远程控制多台主机,并行操作可以节约大量的时间。如果操作的对象数目不大时,还可以直接使用Process类动态的生成多个进程,十几个还好,但是如果上百个甚至更多,那手动去限制进程数量就显得特别的繁琐,此时进程池就派上用场了。 Pool类可以提供指定数量的进程供用户调用,当有新的请求提交到Pool中时,如果池还没有满,就会创建一个...原创 2018-06-26 21:02:05 · 4626 阅读 · 0 评论 -
scrapy基础知识之 Logging
scrapy基础知识之 Logging:修改配置文件settings.py,任意位置添加LOG_FILE = "XxSpider.log"LOG_LEVEL = "INFO"Log levelsScrapy提供5层logging级别:CRITICAL - 严重错误(critical)ERROR - 一般错误(regular errors)WARNING - 警告信息(warning messag...原创 2018-07-08 14:05:15 · 538 阅读 · 0 评论 -
scrapy基础知识之 scrapy 三种模拟登录策略
注意:模拟登陆时,必须保证settings.py里的 COOKIES_ENABLED (Cookies中间件) 处于开启状态 COOKIES_ENABLED = True或 # COOKIES_ENABLED = False策略一:直接POST数据(比如需要登陆的账户信息)# -*- coding: utf-8 -*-import scrapyclass Renren1Spider(s...原创 2018-07-08 14:18:49 · 298 阅读 · 0 评论