MengDiLI-CSDN博客

原创 fasttext文本分类

前几天为了实现文本分类，看了不少博客文章之类的，就fasttext还算稍微能看懂，代码也最终能跑得起来，但是好多博客的代码都是更新之前的了，会报错，找坑填坑一路爬出来，总算跑通了，发出来做个记录吧。看过我博客的小伙伴应该知道我的这篇自制文本分类的骚操作还是跟它一样，先有数据，我就不多说了。接下来首先是先写一个文本分类处理的代码，待会儿再写一个文本分类预测的代码，我是分开运行的，你也可以自己整...

2019-10-27 10:42:55 756 3

原创自制文本分类

这几天公司需求，要做文本分类，看了些文章，各种机器学习、神经网络，看不懂。自己结合结巴分词做了个简单的文本分类实现功能，总体来说还可以。运行结果：自己写的，咋方便咋来，反正各种半自动，没怎么注重过程，小伙伴看了之后可以自己改一下，让它更便捷。首先要有数据，我是爬的各种新闻网站，得到的各类数据。有了数据之后，就可以写这次的代码了首先是训练数据，通俗来说就是把文章处理成想要的格式。第...

2019-10-26 18:44:34 458

原创求列表内元素总和

total = 0list1 = [2, 3, 5]for x in range(0, len(list1)): total = total + list1[x]print( total)

2019-10-26 11:19:32 4233

原创 scrapy_redis分布式

想做一下高大上的scrapy_redis爬虫程序，又觉得我这种水货做不来，后来各种查教程，试验，还算做出来一个像分布式的东西，不过还是记录一下，反正开几个终端模拟分布式，数据库里的数据确实没重复的，也能凑乎着用吧首先搭建scrapy，额。。反正就是先别管啥分布式，做一个scrapy爬虫出来再说。当你的scrapy爬虫能运行成功，数据库里能有数据的时候，改成分布式，settings.py文件最...

2019-10-10 17:30:57 148

原创多进程

import timeimport randomfrom multiprocessing import Processdef piao(name): print('%s piao' %name) time.sleep(random.randrange(1,5)) print('%s piao end' %name)def aa(): print('a...

2019-10-04 09:51:56 143

原创自制成语接龙

都是用的基础的语法，很好理解前提先爬取一些成语，我爬的搜出来的这些，代码在爬取一些成语爬出来的txt放在同级目录下面就好了import randomdef get_list(): with open("chengyu.txt", "r+", encoding="utf-8") as f: content = f.read() url_list ...

2019-09-29 15:25:08 1153

原创爬取一些成语

import requestsimport jsonimport refrom fake_useragent import UserAgentheaders= {'User-Agent':str(UserAgent().chrome)}for page in range(0,43381,30): url='https://sp0.baidu.com/8aQDcjqpAAV3otq...

2019-09-29 15:21:44 454

原创随机生成useragent

from fake_useragent import UserAgentua = UserAgent()useragent=ua.chromeheaders={ 'User-Agent':useragent}

2019-09-29 10:30:47 1522

原创时间格式化

import timeprint(time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.time())))print(time.strftime('%Y-%m-%d %H:%M:%S'))print(time.time())print(time.localtime(time.time()))

2019-09-29 10:21:05 97

原创 python的txt文件存取

#读文件with open("xiaoqu_url.txt", "r+", encoding="utf-8") as f: content=f.read() url_list=content[:-1].split(',')#写文件with open("xiaoqu_url.txt", "a+", encoding="utf-8") as f:...

2019-09-29 10:19:58 288

原创对列表内元素去重

b=[11,1,1,1,222,3,3,3,4,4,5]a=list(set(b))print(a)[1, 3, 4, 5, 11, 222]

2019-09-29 10:16:36 349

原创 if ...if和if...elif区别

我一直以为写if还是elif都是一样的，今天没事做了下试验，证明凡是存在的都是合理的。。。。。不会存在无谓的东西。通过运行下面的代码我可以看出，if…elif的逻辑是，程序先走if，能走就走，走完就不走elif了，走不通的情况才走elif。比如当x=7的时候，符合if下面的>5，运行print(‘大于5’,a)，然后就没有然后了，即使也符合elif下面的<8，也是看不见看不见。。i...

2019-09-24 15:35:30 30481 2

原创练习的多种数据可视化方式

记录一下，以便参考#导入要用到的模块import pandas as pd #数据框操作import matplotlib.pyplot as plt #绘图import matplotlib as mpl #配置字体import numpy as npimport seaborn as snsmpl.rcParams['font.sans-serif'] = ['SimHei'...

2019-09-22 17:06:20 373

原创简单的51job数据可视化

爬虫代码在上一个博客：https://blog.csdn.net/lipachong/article/details/101155790#导入要用到的模块import pandas as pd #数据框操作import matplotlib.pyplot as plt #绘图import matplotlib as mpl #配置字体mpl.rcParams['font.sans-...

2019-09-22 13:47:42 1072

原创爬取51job准备练习数据可视化

import requestsfrom bs4 import BeautifulSoupfrom fake_useragent import UserAgentimport randomimport timefrom lxml import etreefrom pymysql import *def get_list_url(url): ua = UserAgent() ...

2019-09-22 13:46:58 1098 2

原创 python计算字符在字符串中出现的次数

python计算所有字符在字符串中各自出现的次数1from collections import Counterstr='1212jisajikodsakdokoakso'counts=Counter(str)print(counts)2message='Thdsaa' count={} for character in message: count.setdefau...

2019-09-20 15:26:55 6104

原创 xpath的使用实例

xpath的使用实例from lxml import etreeurl='https://www.cnblogs.com/lei0213/p/7506130.html'data=requests.get(url).texth=etree.HTML(data)print(h)#href需要@href，text需要text()html_data = h.xpath('//*[@id="b...

2019-09-19 13:37:34 1543 3

原创 selenium获取cookie并添加、requests处理cookie

import datetimefrom pymysql import *from bs4 import BeautifulSoupimport requestsimport jsonimport zlibfrom urllib import requestimport sysimport randomfrom selenium import webdriverimport r...

2019-09-19 11:20:14 1170

原创 python BlockingScheduler定时任务

【代码】python BlockingScheduler定时任务。

2019-09-18 11:59:55 24277 5

原创 selenium元素等待

1，强制等待time.sleep(3)2，隐式等待隐式等待作用全局driver，所以脚本中设置一次即可。作用是设置超时时间，也就是说当selenium定位某元素时，如果没有定位到，脚本会自动默认休眠一下，然后再去尝试定位，直到定位到继续执行或者超出传入的等待时间抛出异常（我设置的10秒）。用这种等待方式的好处是首先不会因为页面没有加载完成导致的定位不到元素报错，其次是不会让程序傻傻的一...

2019-09-17 14:58:26 135

原创 selenium切换到新打开的网页

#打印当前所有窗口句柄print(driver.window_handles)#默认关闭第一个窗口，不关的话可能浏览器开很多窗口，电脑卡了，所以每打开一个，就关掉前一个driver.close()#切换窗口n = driver.window_handles # 获取当前页所有窗口句柄print(n)driver.switch_to.window(n[0])time.sleep(3...

2019-09-17 14:34:15 3421

原创 scrapy 使用

spider脚本(对应我的anjuke_spider.py)：1.不需要从列表页带数据，也就是说只需要得到列表页列表url时：（列表页如下）# -*- coding: utf-8 -*-import scrapyfrom anjuke.items import AnjukeItemimport reclass AnjukeSpiderSpider(scrapy.Spider):...

2019-09-15 15:13:37 180

原创 python 处理.docx文件

.docx实际上是一个zip的压缩文件，其中Word文件的正文内容被保持在word/document.xml中。具体代码如下：from zipfile import ZipFilefrom bs4 import BeautifulSoupimport osfile_dir='E:\数据\word'for root, dirs, files in os.walk(file_dir): ...

2019-09-03 16:32:13 754

原创 python处理各种编码格式的txt文件

import os,shutilfrom pymysql import *import timeimport chardetdef get_geshi(path): try: f = open(path, 'rb') r = f.read() # 获取文本的编码方式 f_charInfo = chardet.dete...

2019-08-30 18:55:51 784

原创批量处理excel到sql中

import xlrd#设置路径import xlrdfrom pymysql import *import reimport os,shutilimport time#处理文件，把G:/2017年更新2018年楼盘/文件夹下打不开或者格式不结构的文件移动到G:/新建文件夹/下def wenjianchuli(): file_dir='G:/2017年更新2018年楼盘...

2019-08-23 10:40:10 266

原创使用appium在模拟器上进行自动化测试的操作流程

下载要测试的apk到电脑打开模拟器，把apk包拖到模拟器上安装打开appium，运行cmd里输入aapt dump badging D:\test\xxx.apk（apk路径）获取apk包信息，把包信息填入代码输入adb devices查看设备名称deviceName 填入代码desired_caps = { #设备系统#1.platformName：这里是android的a...

2019-08-20 10:42:10 578

原创 appium安装

1、安装node.js下载地址：http://nodejs.cn/download/ ，根据自己系统选择相应版本，一路"Next"即可安装完成。默认安装路径为"C:/Program Files/nodejs/",安装时需添加系统全局变量。安装完成，然后打开命令提示符窗口，敲入npm －v如果出现以上画面则说明node.js安装成功！2.安装Appium直接下载appium的GUI界面...

2019-08-17 10:52:25 8272

原创 appium+夜神模拟器模拟登录、退出app代码

模拟登录抖音，输入账号密码登录的方式会出现给手机发验证码，只能先把微信登好，登录抖音时选择微信登录的方式GetScreenPostion.apk可以用来获取手机屏幕坐标from time import sleepimport timeimport randomfrom appium import webdriverfrom selenium.webdriver.common.by i...

2019-08-17 10:34:31 2082

原创 fiddler安装

昨天安装fiddler踩了不少坑，根据网上教程一步步安装好后会出现各种问题，特别是证书安装方面，后面找到一个教程，算是解决了问题，记录一下，以供以后参考原文链接https://www.cnblogs.com/liulinghua90/p/9109282.html注意：以下步骤假设是已经安装fiddler的情况下需要做的处理，若已安装，建议执行以下步骤，然后进行重新安装；清除C:\Use...

2019-08-15 10:33:24 230

原创 redis存取，redis mysql操作

import datetimefrom pymysql import *from bs4 import BeautifulSoupimport requestsimport jsonimport zlibfrom urllib import requestimport sysimport randomfrom selenium import webdriverimport re...

2019-08-13 16:19:25 194

李孟笛的博客