自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(37)
  • 收藏
  • 关注

原创 【linux】使用sed删除大文件中的指定行

【linux】使用sed删除大文件中的指定行引言: 最近在清洗数据时遇到一个超大的文件,需要删除其中不符合数据要求的指定行。使用之前写好的python脚本清洗速度太慢,于是检索了许多linux文件处理的命令,了解到sed这个命令工具。sed命令的使用比较复杂,但是对于我的这个需求来说,使用其他还是比较简单的。最关键的,它支持正则表达式。使用规则: sed '/正则表达式/d' 文件名 > 新文件名比如删除vocab.txt文件中,字符串"while"开头的所有行:sed '/^while/d

2021-05-10 11:53:01 1635

转载 在linux服务器启动tensorboard

在linux服务器启动tensorboard参考自:https://blog.csdn.net/sinat_35512245/article/details/82960937在登录远程服务器的时候使用命令:ssh -L 16006:127.0.0.1:6006 account@server.address训练完模型之后使用如下命令:tensorboard --logdir="/path/to/log-directory"最后,在本地访问地址:http://127.0.0.1:16006/

2021-05-10 11:31:03 1228

原创 Python实现多进程分词(不使用Queue队列进程通信方式)

Python实现多进程分词(不使用Queue队列进程通信方式)背景:近日公司要求编写一个基于python多进程的双语分词工具,具体要求为:1、不使用传统的进程间通信的方式,即不使用Queue队列和Pool等。2、要求文本按照进程数的大小将文件平均分成若干份,每个进程处理一部分,并将最终分词结果合并。这样的要求目的是为了提高速度:减少进程通信的时间,且可自定义开启进程的数量。实现:工具核心函数如下: def find_offsets(self): with open(self.

2021-04-23 12:29:34 489 4

原创 Scrapy翻页爬取示例——列表页、详情页

Scrapy翻页爬取示例——列表页、详情页引言: 本人最近在帮助同事们爬取一批英—泰双语数据,顺带复习了一下scrapy爬虫相关的知识。下面以简单的小项目为例,一起来开始吧!示例一:爬取列表页本文以这个网站为例:https://engoo.co.th/app/words/list/en/a网站首页如图:向下翻会看到翻页的小图标:假如我们要获取1-17页该页面上所有的字符串,如下所示:应该如何做?先给出代码(仅逻辑实现部分): def parse(self, response):

2021-03-12 15:54:13 5385

转载 【转载】Linux环境(服务器)下非root用户安装Python3.6

【转载】Linux环境(服务器)下非root用户安装Python3.6安装python添加环境变量原文链接:https://www.cnblogs.com/jimlau/p/12049808.html安装pythonpython版本库:https://www.python.org/ftp/python/wget https://www.python.org/ftp/python/3.6.4/Python-3.6.4rc1.tgztar -xzf Python-3.6.4rc1.tgzcd P

2020-12-07 14:30:23 314

原创 执行sys.argv[1],报错IndexError: list index out of range问题

执行sys.argv[1],报错IndexError: list index out of range问题sys.argv[]用来在程序外部获取参数,代码拿过来直接运行是不可以的。正确的方式是通过控制台上输入代码,并向其传递参数。如下例子:p = Process()fr = open(sys.argv[1], "r", encoding="utf-8")fw = open(sys.argv[2], "w", encoding="utf-8")f_del = open(sys.argv[3],

2020-10-20 17:30:56 3765

原创 解决Jupyter Notebook自动补全代码nbextensions的404问题

问题描述:当运行ipython notebook进入jupyter notebook写代码时,发现代码并没有被补全,而且终端报出错误,大致如下:404 GET /tree?token=ca6e409530474f78885d9dd900c5871b5082196c5e31bc68 (::1) 304.00ms referer=None检查发现已通过以下命令:jupyter nbe...

2020-01-21 23:31:24 6188 1

原创 pandas使用教程(十):useful tricks!

一、create an example DataFrame二、rename columnsdf = df.rename({'col one':'col_one', 'col two':'col_two'}, axis='columns')ordf.columns = ['col_one', 'col_two']ordf.columns = df.columns.str.repla...

2020-01-15 18:57:06 200

原创 Pandas使用教程(九)

一、Series.map()的使用二、pd.merge()的使用三、日期转换成字符串,并拼接使用四、使用%time 或 %timeit显示运行时间

2020-01-14 20:44:37 110

原创 Pandas使用教程(八)

一、How to use the MultiIndex in pandas?Question:如何selectstocks.reset_index()将index恢复默认二、New change in 0.18.11.Create a datetime column from a DataFrame2.Create a category column during file ...

2020-01-13 22:59:31 111

原创 Pandas使用教程(七)

一、How to avoid a SettingWithCopyWarning in pandas?condition1:condition2:因为pandas不知道top_movies是view还是copy,所以会弹出警告,以下是解决方法:二、How to change display options in pandas?pd.set_option()显示所有条目pd.re...

2020-01-13 18:35:33 236

原创 Pandas使用教程(六)

一、在数据集中随机取数ufo.sample()利用此方法可以划分训练集和测试集。比如随机取75%的数据作为训练集,剩下的25%作为测试集:二、How to create dummy variables in pandas?method1:method2(更简洁):将dummy columns加入到原来的DataFrame:pd.concat()bonus:最简洁的写法!...

2020-01-13 00:26:16 157

原创 Pandas使用教程(五)

一、Difference between loc,iloc and ix1.loc2.ilocloc与iloc的不同:列表切片:iloc不包含右侧,loc包含右侧3.ixix不建议使用,因为当label是数值型时,使用loc的规则,当label是字符串型时,使用iloc规则二、When to use the “inplace” parameter in pandas?使用dro...

2020-01-12 21:13:39 286

原创 Pandas使用教程(四)

一、How to explore a Pandas Series?1.movies.genre.describe()2.movies.genre.value_counts()3.movies.genre.unique()movies.genre.nunique()16pd.crosstab(movies.genre, movies.content_rating)可视化...

2020-01-11 23:28:12 211

原创 Pandas使用教程(三):一些常见小问题

1.what about reading from csv file only two columns?2.iterrows()3.what’s the best way to drop every non-numeric column from a DataFrame?axis参数:0等同index,1等同columns4.How to use string method in p...

2020-01-11 19:36:58 141

原创 Pandas使用教程(二)

How to rename columns in a pandas DataFrame?方法一:方法二:bonus:将所有series中的空格转换为下划线ufo.columns = ufo.columns.str.replace(’ ’ , ‘_’)How to remove columns from a pandas DataFrame?How to sort a pan...

2020-01-11 17:34:02 181

原创 Pandas使用教程(一)

一、如何加载表格形式的数据import pandas as pdorders = pd.read_table('http://bit.ly/chiporders')orders.head()user_cols = ['user_id','age','gender','occupation','zip_code']users = pd.read_table('http://bit.ly...

2020-01-11 11:39:54 216

原创 ERROR: Failed building wheel for kenlm

将命令:pip3 install kenlm改为:pip3 install https://github.com/kpu/kenlm/archive/master.zip

2019-12-09 19:02:08 3973 1

原创 Django初学者笔记系列(十八):继续开发

将项目推送到服务器后,你可能想进一步开发它或开发要部署的其他项目。更新项目的过程几乎完全相同。首先,对本地项目做必要的修改。如果在修改过程中创建了新文件,使用命令git add .(千万别忘记这个命令末尾的句点)将它们加入到Git仓库中。如果有修改要求迁移数据库,也需要执行这个命令,因为每个迁移都将生成新的迁移文件。然后,使用命令git commit -am "commit message...

2019-12-03 19:32:15 158

原创 Django初学者笔记系列(十七):创建自定义错误页面

1.创建自定义模板在文件夹learning_log/learning_log中,新建一个文件夹,并将其命名为templates;再在这个文件夹中新建一个名为404.html的文件,并在其中输入如下内容:{% extends "learning_logs/base.html" %}{% block header %} <h2>The item you requested is ...

2019-12-03 18:59:51 237

原创 Django初学者笔记系列(十六):确保项目的安全

当前,我们部署的项目存在一个严重的安全问题:settings.py包含设置DEBUG=True,它在发生错误时显示调试信息。开发项目时,Django的错误页面向你显示了重要的调试信息,如果将项目部署到服务器后依然保留这个设置,将给攻击者提供大量可供利用的信息。我们还需确保任何人都无法看到这些信息,也不能冒充项目托管网站来重定向请求。下面来修改settings.py,以让我们能够在本地看到错误消息...

2019-12-03 17:32:14 202

原创 Django初学者笔记系列(十五):改进Heroku部署

在本节中,我们将通过创建超级用户来改进部署,就像在本地一样。我们还将让这个项目更安全:将DEBUG 设置为False ,让用户在错误消息中看不到额外的信息,以防他们 使用这些信息来攻击服务器。在Heroku上创建超级用户我们知道可使用命令heroku run来执行一次性命令,但也可这样执行命令:在连接到了Heroku服务器的情况下,使用命令heroku run bash来打开Bash终端会...

2019-12-03 16:21:17 261 1

原创 Django初学者笔记系列(十四):在Heroku上建立数据库

为建立在线数据库,我们需要再次执行命令migrate,并应用在开发期间生成的所有迁移。要对Heroku项目执行Django和Python命令,可使用命令heroku run。下面演示了如何对Heroku部署执行命令migrate :$ heroku run python3 manage.py migrate输出如下:Running python3 manage.py migrate on ...

2019-12-03 14:13:37 498

原创 Django初学者笔记系列(十三):推送到Heroku

推送到Heroku我们终于为将项目推送到Heroku做好了准备。在活动的虚拟环境中,执行下面的命令:heroku login -iheroku: Enter your login credentialsEmail: heguanlin00@gmail.comPassword: *************Logged in as heguanlin00@gmail.comhe...

2019-12-03 13:36:38 557

原创 Django初学者笔记系列(十二):使用Git跟踪项目文件

使用Git跟踪项目文件Git是一个版本控制程序,让你能够在每次成功实现新功能后都拍摄项目代码的快照。无论出现什么问题(如实现新功能时不小心引入了bug),你 都可以轻松地恢复到最后一个可行的快照。每个快照都被称为提交。使用Git意味着你在试着实现新功能时无需担心破坏项目。将项目部署到服务器时,需要确保部署的是可行版本。1.安装Git2.配置GitGit跟踪谁修改了项目,即便项目由一个人开...

2019-11-26 22:02:21 275

原创 Django初学者笔记系列(十一):部署项目

建立Heroku账户要建立账户,请访问https://heroku.com/ ,并单击其中的一个注册链接。注册账户是免费的,Heroku提供了免费试用服务,让你能够将项目部署到服务器并对其进行测试。安装Heroku Toolbelt重要:要将项目部署到Heroku的服务器并对其进行管理,需要使用Heroku Toolbelt提供的工具。要安装最新的Heroku Toolbelt版本,请访问h...

2019-11-26 21:13:03 381

原创 Django初学者笔记系列(十): 使用jumbotron设置主页的样式

使用jumbotron设置主页的样式下面来使用新定义的header 块及另一个名为jumbotron的Bootstrap元素修改主页。jumbotron元素是一个大框,相比于页面的其他部分显得鹤立鸡群,你想在其中包含什么东西都可以;它通常用于在主页中呈现项目的简要描述。我们还可以修改主页显示的消息。index.html的代码如下:{% extends "learning_logs/base.h...

2019-11-26 12:40:11 355

原创 Django初学者笔记系列(九):设置项目的样式

应用程序django-bootstrap3我们将使用django-bootstrap3来将Bootstrap继承到项目中。这个应用程序下载必要的Bootstrap文件,将它们放到项目的合适位置,让你能够在项目的模板中使用样式设置指令。为安装django-bootstrap3,在活动的虚拟环境中执行如下命令:pip3 install django-bootstrap3接下来,需要在sett...

2019-11-25 21:37:17 282 4

原创 Django初学者笔记系列(八):让用户拥有自己的数据

让用户拥有自己的数据用户应该能够输入其专有的数据,因此我们将创建一个系统,确定各项数据所属的用户,再限制对页面的访问,让用户只能使用自己的数据。在本节中,我们将修改模型Topic ,让每个主题都归属于特定用户。这也将影响条目,因为每个条目都属于特定的主题。我们先来限制对一些页面的访问。使用@login_required 限制访问Django提供了装饰器@login_required ,让你能...

2019-11-25 15:15:37 686

原创 Django初学者笔记系列(七):创建用户账户

在这一节,我们将建立一个用户注册和身份验证系统,让用户能够注册账户,进而登录和注销。我们将创建一个新的应用程序,其中包含与处理用户账户相关的所有功能。我们还将对模型Topic 稍做修改,让每个主题都归属于特定用户。应用程序users我们首先使用命令startapp 来创建一个名为users 的应用程序:(ll_env) nanimatoMacBook-Air:learning_log heg...

2019-11-21 22:01:41 550

原创 Django初学者笔记系列(六):让用户能够输入数据

用于添加主题的表单让用户输入并提交信息的页面都是表单,用户输入信息时,我们需要进行验证,确认提供的信息是正确的数据类型,且不是恶意的信息,然后,我们再对这些有效信息进行处理,并将其保存到数据库的合适地方。这些工作很多都是由Django自动完成的。在Django中,创建表单的最简单方式是使用ModelForm,它根据我们在之前的模型中的信息自动创建表单。创建一个名为forms.py的文件,将其存...

2019-11-20 14:49:48 403

原创 Django初学者笔记系列(五):显示特定主题的页面

显示特定主题的页面1.url模式显示特定主题的页面的URL模式与前面的所有URL模式都稍有不同,因为它将使用主题的id 属性来指出请求的是哪个主题。例如,如果用户要查看主题Chess(其id 为1)的详细页面,URL将为http://localhost:8000/topics/1/。下面是与这个URL匹配的模式,它包含在learning_logs/urls.py中:"""定义learni...

2019-11-18 21:57:12 865 2

原创 Django初学者笔记系列(四):创建其他网页

创建其他网页制定创建网页的流程后,可以开始扩充“学习笔记”项目了。我们将创建两个显示数据的网页,其中一个列出所有的主题,另一个显示特定主题的所有条目。对于每个网页,我们都将指定URL模式,编写一个视图函数,并编写一个模板。但这样做之前,我们先创建一个父模板,项目中的其他模板都将继承它。1.父模板我们首先来创建一个名为base.html的模板,我们将在每个页面中包含这个模板,因此我们将这个标题...

2019-11-18 19:58:07 166

原创 Django初学者笔记系列(三):创建网页:学习笔记主页

创建网页:学习笔记主页使用Django创建网页的过程通常分三个阶段:定义URL、编写视图和编写模板。首先,你必须定义URL模式。URL模式描述了URL是如何设计的,让Django知道如何将浏览器请求 与网站URL匹配,以确定返回哪个网页。每个URL都被映射到特定的视图 ——视图函数获取并处理网页所需的数据。视图函数通常调用一个模板,后者生成浏览器能够理解的网页。为明白其中的工作原理,我们来创建 ...

2019-11-17 20:01:55 391

原创 Django初学者笔记系列(二):创建应用程序

Django初学者笔记系列(二)1.创建应用程序Django项目 由一系列应用程序组成,它们协同工作,让项目成为一个整体。我们暂时只创建一个应用程序,它将完成项目的大部分工作当前,在前面打开的终端窗口中应该还运行着runserver 。请再打开一个终端窗口(或标签页),并切换到manage.py所在的目录。激活该虚拟环境,再执行命令startapplearning_log$ sour...

2019-11-17 00:15:47 549

原创 Django初学者笔记系列(一):环境搭建和项目的创建

Django初学者笔记系列(一)虚拟环境的创建和项目的建立虚拟环境的创建和项目的建立1.建立虚拟环境终端输入python3 -m venv ll_env创建一个名为ll_env的虚拟环境,若失败,需要使用 pip3 install --user virtualenv安装virtualenv包。2.激活虚拟环境source ll_env/bin/activate停止使用虚拟环...

2019-11-16 16:55:34 239

原创 No module named venv问题的出现和解决

No module named venv今天在学习Django的时候,在创建虚拟环境时出现 No module named venv这个错误 。网上搜了一下并没有合适的答案,遂决定写一篇文章来帮助和我一样的初学者摆脱困境。闲言少叙,进入正题:在选择好一个合适的路径之后,我输入以下代码试图创建虚拟环境:$ python -m venv ll_env报错如下:/usr/bin/pyt...

2019-11-15 16:56:55 19028 5

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除