cancer_t-CSDN博客

原创记一次 linux python 用pip install 命令安装包失败原因及解决方案：Failed to establish a new connection: [Errno -2]

记一次 linux python 用pip install 命令安装包失败原因及解决方案前两天自己搭建了一套虚拟机，然后安装python3环境，当进行pip install安装时始终无法正常安装，一开始都是把安装包下载下来，然后进行python setup install 进行安装，但是实在太麻烦了，与是又寻找解决方案。错误日志：pip install fake-useragentWARNING: Retrying (Retry(total=4, connect=None, read=None, r

2021-06-19 09:39:59 6649 3

原创 pyspark的dataframe写入mysql慢？试试增加这几个参数

之前遇到一个需求，使用spark计算完成之后，df有将近百万数据需要写入到MySQL中日方写法：mysql_driver = "com.mysql.jdbc.Driver"mysql_url = "jdbc:mysql://localhost:3306/my_test_db"dataframe.write.mode('append').format("jdbc").options(url=mysql_url,driver=mysql_driver,usr="test",password="xx

2020-09-04 10:28:08 1138 1

原创算法之基数排序（Radix Sort）

基数排序也是非比较的排序算法，对每一位进行排序，从最低位开始排序，复杂度为O(kn),为数组长度，k为数组中的数的最大的位数；基数排序是按照低位先排序，然后收集；再按照高位排序，然后再收集；依次类推，直到最高位。有时候有些属性是有优先级顺序的，先按低优先级排序，再按高优先级排序。最后的次序就是高优先级高的在前，高优先级相同的低优先级高的在前。基数排序基于分别排序，分别收集，所以是稳定的...

2020-08-06 09:24:02 326

转载算法之桶排序

桶排序是计数排序的升级版。它利用了函数的映射关系，高效与否的关键就在于这个映射函数的确定。桶排序 (Bucket sort)的工作的原理：假设输入数据服从均匀分布，将数据分到有限数量的桶里，每个桶再分别排序（有可能再使用别的排序算法或是以递归方式继续使用桶排序进行排 1 算法描述人为设置一个BucketSize，作为每个桶所能放置多少个不同数值（例如当BucketSize==5...

2019-02-17 22:59:32 352

转载算法之计数排序（Counting Sort）

计数排序的核心在于将输入的数据值转化为键存储在额外开辟的数组空间中。作为一种线性时间复杂度的排序，计数排序要求输入的数据必须是有确定范围的整数。计数排序(Counting sort)是一种稳定的排序算法。计数排序使用一个额外的数组C，其中第i个元素是待排序数组A中值等于i的元素的个数。然后根据数组C来将A中的元素排到正确的位置。它只能对整数进行排序。 1 算法描述找出...

2019-02-17 22:53:42 269

转载算法之堆排序（Heap Sort）

堆排序（Heapsort）是指利用堆这种数据结构所设计的一种排序算法。堆是一个近似完全二叉树的结构，并同时满足堆积的性质：即子结点的键值或索引总是小于（或者大于）它的父节点。 7.1 算法描述将初始待排序关键字序列(R1,R2….Rn)构建成大顶堆，此堆为初始的无序区；将堆顶元素R[1]与最后一个元素R[n]交换，此时得到新的无序区(R1,R2,……Rn-1)和新的...

2019-02-17 22:50:21 555

转载算法之快速排序（Quick Sort）

快速排序的基本思想：通过一趟排序将待排记录分隔成独立的两部分，其中一部分记录的关键字均比另一部分的关键字小，则可分别对这两部分记录继续进行排序，以达到整个序列有序。1 算法描述快速排序使用分治法来把一个串（list）分为两个子串（sub-lists）。具体算法描述如下：从数列中挑出一个元素，称为 “基准”（pivot）；重新排序数列，所有元素比基准值小的摆放在基准前面，...

2019-02-17 22:46:32 222

转载算法之归并排序（Merge Sort）

和选择排序一样，归并排序的性能不受输入数据的影响，但表现比选择排序好的多，因为始终都是O(n log n）的时间复杂度。代价是需要额外的内存空间。归并排序是建立在归并操作上的一种有效的排序算法。该算法是采用分治法（Divide and Conquer）的一个非常典型的应用。归并排序是一种稳定的排序方法。将已有序的子序列合并，得到完全有序的序列；即先使每个子序列有序，再使子序列段间有序。...

2019-02-17 22:38:49 293

转载算法之希尔排序（Shell Sort）

希尔排序是希尔（Donald Shell）于1959年提出的一种排序算法。希尔排序也是一种插入排序，它是简单插入排序经过改进之后的一个更高效的版本，也称为缩小增量排序，同时该算法是冲破O(n2）的第一批算法之一。它与插入排序的不同之处在于，它会优先比较距离较远的元素。希尔排序又叫缩小增量排序。希尔排序是把记录按下表的一定增量分组，对每组使用直接插入排序算法排序；随着增量逐渐减少，每...

2019-02-17 22:32:08 146

转载插入排序（Insertion Sort）

插入排序（Insertion-Sort）的算法描述是一种简单直观的排序算法。它的工作原理是通过构建有序序列，对于未排序数据，在已排序序列中从后向前扫描，找到相应位置并插入。插入排序在实现上，通常采用in-place排序（即只需用到O(1)的额外空间的排序），因而在从后向前扫描过程中，需要反复把已排序元素逐步向后挪位，为最新元素提供插入空间。１. 算法描述一般来说，插入排序都采用in...

2019-02-17 22:26:30 278

转载算法之选择排序（Selection Sort）

表现最稳定的排序算法之一，因为无论什么数据进去都是O(n2)的时间复杂度，所以用到它的时候，数据规模越小越好。唯一的好处可能就是不占用额外的内存空间了吧。理论上讲，选择排序可能也是平时排序一般人想到的最多的排序方法了吧。选择排序(Selection-sort)是一种简单直观的排序算法。它的工作原理：首先在未排序序列中找到最小（大）元素，存放到排序序列的起始位置。然后，再从剩余未排序元素中继续寻找最...

2019-02-17 22:21:21 211

转载算法之冒泡排序（Bubble Sort）

冒泡排序（Bubble Sort）　　冒泡排序是一种简单的排序算法。它重复地走访过要排序的数列，一次比较两个元素，如果它们的顺序错误就把它们交换过来。　　走访数列的工作是重复地进行直到没有再需要交换，也就是说该数列已经排序完成。　　这个算法的名字由来是因为越小的元素会经由交换慢慢“浮”到数列的顶端1.1 算法描述比较相邻的元素。如果第一个比第二个大，就交换它们两个；对每一对相邻元素作...

2019-02-17 22:01:50 174

cancer_t的博客