python
文章平均质量分 67
阿德罗斯
记录学习和生活
展开
-
python 爬虫实战:掘金文章爬取并保存在 mysql
文章目录一、代码目的二、爬取内容和思路2.1 爬取内容:2.2 思路爬取内容的分析存储到 mysql一、代码目的最近进行一个掘金爬虫,感觉还是挺有意思的,掘金的爬虫文章好像还是比较少的,记录一下。二、爬取内容和思路2.1 爬取内容:主要包括两部分:1. 对掘金的文章列表进行爬取,包括文章标题、用户名、文章简介以及文章链接;2. 具体的文章内容,这部分只爬取了文章标题和内容。2.2 思路爬取内容的分析首先分析图一,这部分通过 F12 将请求锁定在 https://apinew.juej原创 2020-09-07 11:48:46 · 1705 阅读 · 6 评论 -
位运算操作解决 leetcode 191
题目题目表述:编写一个函数,输入是一个无符号整数,返回其二进制表达式中数字位数为 ‘1’ 的个数示例:输入:00000000000000000000000000001011输出:3解释:输入的二进制串 00000000000000000000000000001011 中,共有三位为 ‘1’。思路: 本题使用位运算进行比较简单,而且有两种位运算方法。第一种:在循环中,如果 n%2 ...原创 2020-04-29 23:56:30 · 135 阅读 · 0 评论 -
python 小白爬虫实战:使用 scrapy 爬取微博热搜并发送邮箱
文章目录环境爬取内容和思路实现文件结构具体实现后记参考资料环境我的环境是:python3.5 + scrapy 2.0.0爬取内容和思路爬取内容:微博热搜的关键词,链接,以及导语,即简要概述热搜内容的一小段话思路:对于热搜链接:通过热搜关键词所在标签的属性再加上前缀即可(如图1)对于关键词:进入关键词所在链接,一般会有一个如图2所示的位置,根据标签解析出内容;如果没有,存入“无”...原创 2020-03-28 21:07:43 · 2498 阅读 · 0 评论 -
根据单词中夹杂的数字对字符串进行排序
1. 任务由题目可以知道,任务是根据字符串中的单词夹带的数字对字符串进行重新排序。例如:排序前:“is2 Thi1s T4est 3a”排序后:“Thi1s is2 3a T4est”2.思路我的思路是:将整个字符串先分割,做成一个单词(word)为元素的 list对每一个 word ,找到它包含的数字,并记录到辅助 list 中根据辅助 list 和 words 构成的...原创 2020-02-15 00:16:27 · 421 阅读 · 0 评论 -
中文信息处理之最大正向匹配法的评价程序改进
一、背景昨天写的最大正向匹配法的评价程序存在如下问题:一个句子使用自己的分词方法分词,结果里边有些词汇判断是对的,但实际上是错的。如下:s = “山西山东都有西山煤电”s1 = “山西山东” 分出一个【西山】s2 = “西山煤电” 分出一个【西山】s1 结果显然是错的,但是我们可能划到正确的范围中二、改进方案通过初始索引和切分的字符长度来判断分割是否正确。输入:严守一把手机关...原创 2019-03-21 22:25:17 · 240 阅读 · 0 评论 -
中文信息处理之最大正向匹配法(下)
文章目录2.最大正向匹配法3.评价程序总结2.最大正向匹配法这是一个基于词表的分词方法。主要思想是:把一个句子从左向右扫描一遍,遇到词典中的词就标识出来遇到复合词找最长的词匹配遇到不认识的字串就分割为单字词词表我们已经建立成功了(中文信息处理之最大正向匹配法(上)),接着我们开始根据上述三点写主体程序,代码如下。def fenci(s,maxlen,Fenci_list):#...原创 2019-03-19 22:21:14 · 2736 阅读 · 0 评论 -
中文信息处理之正向最大匹配法(上)
文章目录一、工具二、任务分词1. 抽取词表,统计词频一、工具语言:python3.5语料:人民日报语料二、任务分词1. 抽取词表,统计词频给的素材如图 1 所示:观察上边的格式,可以得到:所抽取的文本信息(包括标点)都是在两个空格和 / 之间,所以正则表达式如下:# text 是文本信息import repattern = re.compile(r' (.*?)/')fe...原创 2019-03-19 21:40:50 · 867 阅读 · 1 评论 -
算法笔记4队列
微信公众号:珷玞的日常概念队列:先进先出。只支持两种基本操作:入队,出对。 队列作为一种基础的数据结构,应用也很广泛。循环队列和链式队列队列和栈一样,可以使用数组实现,也可以使用链表实现。用数组实现的叫做顺序队列,用链表实现的叫做链式队列。# 4-1 顺序队列# 实现线性队列# 实现线性队列class Queue(): def __init__(sel...原创 2019-01-17 20:55:57 · 106 阅读 · 0 评论 -
更改 Jupyter Notebook 工作空间
目录一、背景二、配置步骤1.环境变量的设置2.生成 jupyter_notebook_config.py 文件3.更改配置文件参考一、背景Jupyter Notebook 是我们平时学习 Python 时常用的工具,但是我们为了让代码在电脑中存储的更为条理常常会更改它的工作目录,本文就是我在更改 Jupyter Notebook 工作空间的流程以及踩得一些坑,希望对...原创 2018-10-01 11:09:43 · 1902 阅读 · 0 评论 -
python分析qq聊天记录
一、任务目标 本实验主要是根据导出的qq群聊天记录,做一个简单的数据提取和可视化操作,比较简单而且贴合现实生活。二、环境以及所需的安装包 环境: win10+python3 安装包:import reimport datetimeimport matplotlib.pyplot as pltimport ...原创 2018-09-08 17:05:01 · 12975 阅读 · 3 评论 -
python爬虫(二)获取京东python书籍信息
这个代码主要是为了锻炼对req对ests库和re库方法的熟练度。主要提取了书的书名、作者、出版社、价格等信息# -*- coding: utf-8 -*-import requestsimport refrom requests.exceptions import RequestExceptiondef get_one_page(url): try: r = requ...原创 2018-08-01 21:52:35 · 1769 阅读 · 0 评论 -
python爬虫(三)selenium爬取京东商品信息
目录一、代码目的二、准备工作三、代码四、过程中遇到的坑1.加载不完全2.元素位置的确定五、实验结果和总结一、代码目的主要是为了学习selenium模拟浏览器操作的方法二、准备工作浏览器:chrome驱动:chromedirver(和python.exe在同一目录)用到的库:lxml、selenium三、代码import timefro...原创 2018-08-04 13:57:15 · 7096 阅读 · 9 评论 -
python笔记(一)
一、dict and setdict字典:根据key的值来找value的存放位置(哈希函数),所以key的值是不可变类型。set集合:输入为一个list,但是会自动筛去重复的值,类似于将dict字典格式数据里的key存放起来。set也不可以存放可变对象。不可变对象:不可变对象的类似replace()方法,本质上是变量指向的内容发生了变化,对象本身并没有变化。tuple可以放在...原创 2018-07-18 09:36:52 · 122 阅读 · 0 评论 -
python爬虫(一)爬取豆瓣电影Top250
提示:完整代码附在文末一、需要的库 requests:获得网页请求 BeautifulSoup:处理数据,获得所需要的资料二、爬取豆瓣电影Top250 爬取内容为:豆瓣评分前二百五位电影的名字、主演、以及该电影的简介。 首先先进入豆瓣电影Top250,打开审查元素,找到所要爬取的电影名、主演以及电影主页的链...原创 2018-06-11 15:41:34 · 7344 阅读 · 0 评论