没离开过_MW-CSDN博客

原创 python-默认时区的设置及时区的转换

# 设置默认时区datetime.datetime.strptime('需要转换的时间', '你的时间格式').replace(tzinfo=pytz.timezone("你需要设置的默认时区"))

2021-06-11 10:13:40 2250

原创查询某一字段重复的元素

SELECT `字段名a`, count(`字段名a`) as c FROM `表名` WHERE 过滤条件 group by 字段名a ORDER BY `c` DESC

2020-07-20 10:08:17 226

转载 E: Sub-process /usr/bin/dpkg returned an error code (1)

安装pycurl报错：E: Sub-process /usr/bin/dpkg returned an error code (1)此问题是由于dpkg缺失相关文件引起的，解决方案可参考下面这篇博客；https://blog.csdn.net/stickmangod/article/details/85316142...

2019-12-24 10:04:38 266

原创 Ubuntu下redis的安装

### 安装sudo apt-get install redis-server### 查看配置文件sudo vim /etc/redis/redis.conf #### 需要远程访问，注释.conf文件的bind一行# bind 127.0.0.1 #### 关闭保护模型的方式：(error) DENIED Redis is running i...

2019-11-28 11:43:11 168

原创字典嵌套字典的数据--按内部字典的值进行排序

如下代码所示：d = { 'a': {'a1': 3, 'a2': 3}, 'b': {'a1': 8, 'a2': 3}, 'c': {'a1': 6, 'a2': 3}, 'd': {'a1': 1, 'a2': 3}, 'e': {'a1': 9, 'a2': 3}, 'f': {'a1': 4, 'a2': 3}, }pri...

2019-10-10 15:52:01 380

原创 django-admin只显示自定义的提示信息

若只显示提示信息django提供了self.message_user()方法：class PricecaclBaseAdmin(admin.ModelAdmin): def save_model(self, request, obj, form, change): self.message_user(request, "%s 请重新设置，谢谢！" % messag...

2019-09-17 16:06:23 2074

原创 pip freeze

pip freeze | tee requirements.txt # 输出本地包环境至文件pip install -r requirements.txt # 根据文件进行包安装

2019-05-16 15:03:55 227

原创 pandas-按列生成csv文件

a = [1,2,3,4,5]b = [1,1,1,1,1]c = [2,2,2,2,2]d = [3,3,3,3,3]from pandas import DataFrameimport pandas as pddf = pd.DataFrame()df['a'] = adf['b'] = bdf['c'] = cdf['d'] = ddf.set_index('a', ...

2019-05-14 14:32:48 3340 1

原创解决: Command "python setup.py egg_info" failed with error code 1 in /tmp/pip-install/mysql-client

ERROR: Command "python setup.py egg_info" failed with error code 1 in /tmp/pip-install-bi1j08n_/mysqlclient/错误无法安装python第三方库 ERROR: Complete output from command python setup.py egg_info: ER...

2019-04-29 16:28:21 2282

原创 linux 源码安装/配置odoo12

安装postgresql若使用一键安装失败,出现依赖问题,需卸载postgresql数据库时:删除相关的文件:sudo apt-get --purge remove postgresql\*sudo rm -r /etc/postgresql/sudo rm -r /etc/postgresql-common/sudo rm -r /var/lib/postgresql/...

2019-03-27 18:14:18 1447

原创查看本机IP/代理IP

查看本机IP:浏览器地址栏请求:http://httpbin.org/get{ "args": {}, "headers": { "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8", "Accept-Encoding"...

2019-03-20 11:33:17 5025 1

原创 linux查看打开文件的数量

查看所有进程打开的文件数量：lsof |wc -l查看某个进程打开的文件数：lsof -p pid|wc -l # pid为进程id查看进程id:top

2019-03-05 09:25:59 12305 1

原创 Python 一行代码去除list元素（字符串）中的换行符、制表符、空格

priceList为一个列表：priceList = ['\n\t\t\t\t\t\t\t\tCHF\xa0\r\n \r\n \t64.90', '\n\t\t\t\t\t\t\t\tCHF\xa0\r\n \r\n \t58.40', '\n\t\t\t\t\t\t\t\tCHF\xa0\r\n \r\n \t48.70']...

2019-02-13 16:53:50 19478

原创 Python-去除字符串中的空格

s = ' a s d 'print(s.strip(), "***") # a s d ***(去除字符串两端的空格）print(s.lstrip(), "++++") # a s d ++++（去除字符串左端的空格）print(s.rstrip(), "====") # a s d ====（去除字符串右端的空格）print(s.replace(" ",...

2018-12-14 15:54:22 759

原创 mysql-查询NULL值

查询NULL值：SELECT * FROM `表名` WHERE "字段名" IS NULL查询非空值：SELECT * FROM `表名` WHERE "字段名" IS NOT NULL删除空数据：DELETE FROM '表名' WHERE '字段名' IS NULL ...

2018-12-14 14:42:13 550

原创去除字符串中重复元素

# 内含分隔符的字符串str1 = 'a,s,d,f,g,h,d,f'sep = ','list1 = set(str1.spilt(sep)str2 = sep.join(str2)print(type(str2), str2)

2018-12-10 18:10:37 1026

原创获取文件夹下所有文件的名称

import osrootdir = '文件路径'list = os.listdir(rootdir) # 获取文件名列表

2018-12-10 18:03:17 813

原创 mysql 删除一张表的重复元素

由于MySQL无法在同一张表上同时进行删除和查询操作：解决方案：建立一张临时表tmpresult：delete from partno_sup where id in (select id from (select id from partno_sup where partno in (select partno from partno_sup group by partno ...

2018-12-07 10:56:48 433

Some websites implement certain measures to prevent bots from crawling them, with varying degrees of sophistication. Getting around those measures can be difficult and tricky, and may sometimes requir...

2018-09-26 10:40:28 625

原创 git_如何将本地仓库变为普通文件

进入该仓库,通过文件查找->显示隐藏文件->删除git文件夹即可

2018-09-22 19:54:21 3879

转载 Scrapy进阶-防ban策略

1. download_delay因为我们要大批量爬取网页，为了防止过分密集影响到别人的服务器，建议在setting.py中设置DOWNLOAD_DELAY=2，最好是在晚上睡觉的时候跑，这样虽然速度慢了一点，但是被dan的几率会降低很多哦。2. 禁止cookiescookies，是指某些网站为了辨别用户身份而储存在用户本地终端（Client Side）上的数据（通常经过加密），有的时...

2018-09-21 11:45:12 224

原创 scrapy-CrawlSpiders

通过下面的命令可以快速创建 CrawlSpider模板的代码：scrapy genspider -t crawl tencent tencent.com上一个案例中，我们通过正则表达式，制作了新的url作为Request请求参数，现在我们可以换个花样...class scrapy.spiders.CrawlSpider它是Spider的派生类，Spider类的设计原则是只爬取...

2018-09-20 23:41:18 213

原创 scrapy-parse()方法的工作机制

1. 因为使用的yield，而不是return。parse函数将会被当做一个生成器使用。scrapy会逐一获取parse方法中生成的结果，并判断该结果是一个什么样的类型；2. 如果是request则加入爬取队列，如果是item类型则使用pipeline处理，其他类型则返回错误信息。3. scrapy取到第一部分的request不会立马就去发送这个request，只是把这个request放到队列...

2018-09-20 23:30:39 718

原创 scrapy-案例：腾讯招聘网自动翻页采集

创建一个新的爬虫： scrapy genspider tencent "tencent.com" 编写items.py 获取职位名称、详细信息、class TencentItem(scrapy.Item): # define the fields for your item here like: jobTitle = scrapy.Field() j...

2018-09-20 23:30:01 445

原创 scrapy-spider类分析

Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。换句话说，Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。class scrapy.Spider是最基本的类，所有编写的爬虫必须继承这个类。主要用到的函数及调用顺序为：__init__(): 初始化爬虫名字和start_u...

2018-09-20 23:25:16 252

原创 scrapy-Item Pipeline

当Item在Spider中被收集之后，它将会被传递到Item Pipeline，这些Item Pipeline组件按定义的顺序处理Item。每个Item Pipeline都是实现了简单方法的Python类，比如决定此Item是丢弃而存储。以下是item pipeline的一些典型应用：验证爬取的数据(检查item包含某些字段，比如说name字段) 查重(并丢弃) 将...

2018-09-20 23:21:37 137

原创 scrapy-如何在CrawlSpider进行模拟登陆

因为CrawlSpider和Spider一样，都要使用start_requests发起请求，用从Andrew_liu大神借鉴的代码说明如何模拟登陆：##替换原来的start_requests，callback为def start_requests(self): return [Request("http://www.zhihu.com/#signin", meta = {'coo...

2018-09-20 23:15:42 645

原创 Scrapy 去重

Scrapy 去重RFPDupeFilter这个类 set()集合那么在 scrapy 中是如何来使用这个类的方法的呢？什么时候使用，这个流程是怎样的呢？这个可以追溯到 scrapy.core.scheduler 中定义的 Scheduler 类来决定。现在就来看看 Scheduler 类中和过滤重复 url 有关的内容。在 Scheduler 类中，在调度时，采用了 me...

2018-09-19 19:46:38 2842

原创 scrapy入门案例

入门案例学习目标创建一个Scrapy项目定义提取的结构化数据(Item) 编写爬取网站的 Spider 并提取出结构化数据(Item) 编写 Item Pipelines 来存储提取到的Item(即结构化数据) 一. 新建项目(scrapy startproject)在开始爬取之前，必须创建一个新的Scrapy项目。进入自定义的项目目录中，运行下...

2018-09-19 19:42:56 325

原创 scrapy安装

安装 1、安装wheel pip install wheel2、安装lxml 3、安装pyopenssl 4、安装Twisted 5、安装pywin32 6、安装scrapypip install scrapyScrapy的安装介绍Scrapy框架官方网址：http://doc.scrapy.org/en/latestScrapy中文维护站点：htt...

2018-09-19 19:32:22 146

原创 Scrapy 框架

Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。 Scrapy 使用了 Twisted(其主要对手是Tornado)多线程异步网络框架来处理网络通讯，可以加快我们的下载速度，不用自己去实现异步...

2018-09-19 19:26:18 162

原创阿里云-centos-7.2-安装python3,并设置python3为默认

1.安装python3.6.5 1.1 先去python官网下载python3安装包执行命令: wget https://www.python.org/ftp/python/3.6.5/Python-3.6.5.tgz 1.2 安装zlib-devel包(后面安装pip需要用到,这里先下载，后面就不用重复编译)yum install zlib-devel1.3 ...

2018-09-03 20:10:21 2828 6

原创解决云服务器实例(Ubuntu16.04)使用秘钥对使普通用户无法登陆的问题

问题是怎么出现的:阿里云服务器在使用秘钥对登陆后,阿里云会自动将密码登录给禁用然而,云服务器的一个实例只能绑定一个秘钥对; 系统默认为root用户,当使用了秘钥对登陆后,再想使用普通用户登录已经无法实现了;#编辑 /etc/ssh/sshd_config 文件,进行如下设置:vim /etc/ssh/sshd_config在打开的sshd_config文件中可以看到Pass...

2018-07-20 22:54:15 1518 1

原创 MySQL的安装-卸载-及环境配置-Ubuntu16.04

MySQL的安装:首先执行下面三条命令：sudo apt-get install mysql-serversudo apt isntall mysql-clientsudo apt install libmysqlclient-dev安装成功后可以通过下面的命令测试是否安装成功：sudo netstat -tap | grep mysql出现如下信息证明安装成功：...

2018-07-20 21:31:14 160

Docker简易上手指南

Docker属于对Linux容器技术的一种封装，它提供了简单易用的容器使用接口，是目前最流行的 Linux 容器解决方案。Docker将应用程序与该程序的依赖打包在一个文件里面，运行这个文件，就会生成一个虚拟容器。程序在这个虚拟容器里运行，就好像在真实的物理机上运行一样。有了Docker就再也不用担心环境问题了

2019-03-01

python网络数据采集

什么是网络数据采集在互联网上进行自动数据采集这件事和互联网存在的时间差不多一样长。虽然网络数据采集并不是新术语，但是多年以来，这件事更常见的称谓是网页抓屏（screen scraping）、数据挖掘（data mining）、网络收割（Web harvesting）或其他类似的版本。今天大众好像更倾向于用“网络数据采集”，因此我在本书中使用这个术语，不过有时会把网络数据采集程序称为网络机器人（bots）。

2018-09-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Keep_on_Growing的博客